为什么在RAG中需要提示压缩

在RAG（检索增强生成）中，提示压缩主要是对检索出的文档内容通过提取核心信息、过滤无关文本、压缩冗长内容的方式进行精简处理，使得最终输入给大模型的内容既能够保留关键的信息，又符合模型输入长度的限制。

那为什么要这么做呢？

因为RAG的生成效果十分依赖“输入给模型的文档质量”。

1.如果直接将大量拼接的检索内容输入给大模型，很可能会超出大模型的输入长度限制，而通过压缩可以将关键的信息浓缩进有限的token内。

2.检索出的文档中很有可能包含大量的无关内容，这些内容往往会稀释关键信息，最终导致大模型聚焦困难，抓不住重点，如果不经过压缩生成的回答可能出现偏差，甚至出现“幻觉”。

3.如果输入的文档存在较多的非必要内容，不经过压缩将增加模型处理和推理的计算负担，像商业的大模型都是通过token来计费的，因此还可能增加成本。