ChinaWHAPI
← 返回知识中心
RAGVectorEmbeddingKnowledge Base

基于中国大模型的 RAG 实现:从文档处理到向量检索

用 ChinaWHAPI 的模型组合实现完整的 RAG(检索增强生成)系统,包含文档切分、Embedding、向量化检索和生成。

RAG 工作流程

RAG = Retrieval(检索)+ Augmented(增强)+ Generation(生成)。核心思想是在生成答案之前,先从知识库中检索相关内容,然后将检索结果和原问题一起交给大模型生成答案。

文档处理

将长文档切分成适当大小的 chunk(通常 500-1000 字),每个 chunk 独立嵌入。这样可以提高检索精度,也方便控制成本。

向量检索

用 Embedding 模型将每个 chunk 转为向量,存入向量数据库(如 Milvus、Pinecone、Qdrant)。检索时将用户问题也转为向量,用余弦相似度找到最相似的 chunks。

生成阶段

{"model":"qwen3.6-plus","messages":[{"role":"system","content":"你是一个技术支持助手。请基于以下参考资料回答用户问题。如果资料中没有相关信息,请如实说明,不要编造。"},{"role":"user","content":"参考资料:{retrieved_chunks}\n\n问题:{question}"}]}

ChinaWHAPI 在 RAG 中的角色

ChinaWHAPI 提供所有需要的模型:Embedding 模型做向量化、DeepSeek V4 Flash 做召回初筛、Qwen3.6 Plus 做最终生成、Kimi K2.6 做超长文档处理。