Dify知识库配置与使用全流程
之前我们介绍过Obsidian、Notion两款文本知识库,它们的核心是通过关键词、正则或精确匹配检索原始文本、文档等内容——简单说,就是“找关键词”,但无法理解检索需求的真实含义,有时难以满足精准查找需求。
而向量知识库恰好解决了这一问题:它是一种将文本通过 Embedding 模型转成高维向量,存储向量并做近似最近邻搜索(ANN),实现语义检索。我们简单的讲,就是它会将内容切分成一小块一小块,然后给这一小块的内容生成一个变量,之后下次我们查找想要的东西的时候,它就会找到跟这个变量比较接近的结果给找出来,然后进行匹配,也就是语义检索。核心优势就是能理解需求含义、匹配更精准。
向量知识库的常见实现方式有两种:一是开源向量数据库(如Chroma、Milvus),二是可部署的开源向量知识库平台(如Dify、RAGFlow)
本文就以 dify 作为案例,因为它也是现在相对比较主流的 RAG 平台,且企业中部署和使用的也比较多
还有一点,就是使用向量知识库需要进行内容拆分、向量化、入库、相似度检索等,都是需要配置大模型的,也就是说需要使用费用的,如果个人的话,大家的简单玩一下,开个通义的 apikey,企业的话,一般让企业报销就 OK 了。
