FAQ
RAG 知识库怎么建?需要多少文档?
💡 直接回答
RAG 知识库需要 50–200 篇文档覆盖入门问答,500–2000 篇达到客服级,5000+ 篇进入专家级;分文档收集、切分、向量化、召回调优四步。
RAG(Retrieval-Augmented Generation)= 向量检索 + 大模型,目的是让大模型回答时基于企业私有知识、而不是凭空编造。知识库建设分四步:文档收集 → 文档切分 → 向量化入库 → 检索召回调优。
文档量的经验值
- 50–200 篇:覆盖入门级问答(产品介绍、常见问题、售后流程)
- 500–2000 篇:客服级别(含操作手册、故障排查、版本更新日志)
- 5000+ 篇:专家级(含合同、法规、技术标准、历史工单)
文档准备关键点
- 格式统一:Word / PDF / Markdown 优于纯图片扫描件(需 OCR 预处理)
- 结构清晰:有 H1 / H2 / H3 层级,便于智能切分
- 版本可控:标注创建时间、更新时间、适用范围,防止检索到过期信息
- 敏感信息脱敏:身份证、手机号、合同金额等
聚匠能做什么
聚匠可承接 RAG 知识库全流程服务:文档预处理(清洗 / 切片 / OCR)、向量库搭建(Milvus / Qdrant / PgVector)、混合检索(BM25 + 向量)调优,以及知识定期刷新机制。
※ 知识库不是"导入即用",前两周召回率调优工作是必需的项目环节。