把文本内容、图像、音频、视频等形式的信息映射为高维空间中的密集向量的过程就是“嵌入”。
向量是语义空间中的坐标,主要用于捕捉对象之间的语义关系和隐含的意义。
每个向量相当于文本的数字指纹,里面包含了文本的语义信息。
一般来说,语义相近的对象在向量空间中彼此接近,语义相异的对象则彼此远离。
在向量空间中进行数学计算可以判断两段话是否相关。
分块后的文本块需要先生成Embedding,存入到向量数据库中,在用户提问时,系统通过计算提问的Embedding 与文本块的Embeding之间的相似度,找到和用户的提问最相关的内容,再交给大模型生成回答。
那为什么需要Embedding呢?
主要是因为传统的检索比较依赖关键词匹配,难以应对同义词、上下文和多样化表达的问题。
Embedding是将文本映射到高维的向量空间,如果用户问“怎么泡咖啡”,经过Embedding之后可以将“咖啡的制作步骤”等语义相关的概念通过向量距离自动匹配。