RAGVectorEmbeddingKnowledge Base

基于中国大模型的 RAG 实现：从文档处理到向量检索

用 ChinaWHAPI 的模型组合实现完整的 RAG（检索增强生成）系统，包含文档切分、Embedding、向量化检索和生成。

RAG 工作流程

RAG = Retrieval（检索）+ Augmented（增强）+ Generation（生成）。核心思想是在生成答案之前，先从知识库中检索相关内容，然后将检索结果和原问题一起交给大模型生成答案。

文档处理

将长文档切分成适当大小的 chunk（通常 500-1000 字），每个 chunk 独立嵌入。这样可以提高检索精度，也方便控制成本。

向量检索

用 Embedding 模型将每个 chunk 转为向量，存入向量数据库（如 Milvus、Pinecone、Qdrant）。检索时将用户问题也转为向量，用余弦相似度找到最相似的 chunks。

生成阶段

{"model":"qwen3.6-plus","messages":[{"role":"system","content":"你是一个技术支持助手。请基于以下参考资料回答用户问题。如果资料中没有相关信息，请如实说明，不要编造。"},{"role":"user","content":"参考资料：{retrieved_chunks}\n\n问题：{question}"}]}

ChinaWHAPI 在 RAG 中的角色

ChinaWHAPI 提供所有需要的模型：Embedding 模型做向量化、DeepSeek V4 Flash 做召回初筛、Qwen3.6 Plus 做最终生成、Kimi K2.6 做超长文档处理。