在RAG(检索增强生成)中,提示压缩主要是对检索出的文档内容通过提取核心信息、过滤无关文本、压缩冗长内容的方式进行精简处理,使得最终输入给大模型的内容既能够保留关键的信息,又符合模型输入长度的限制。
那为什么要这么做呢?
因为RAG的生成效果十分依赖“输入给模型的文档质量”。
1.如果直接将大量拼接的检索内容输入给大模型,很可能会超出大模型的输入长度限制,而通过压缩可以将关键的信息浓缩进有限的token内。
2.检索出的文档中很有可能包含大量的无关内容,这些内容往往会稀释关键信息,最终导致大模型聚焦困难,抓不住重点,如果不经过压缩生成的回答可能出现偏差,甚至出现“幻觉”。
3.如果输入的文档存在较多的非必要内容,不经过压缩将增加模型处理和推理的计算负担,像商业的大模型都是通过token来计费的,因此还可能增加成本。