本项目是一个使用LLM(大语言模型)使用RAG技术构建文档问答的项目,将会涵盖企业构建基于RAG的文档问答几乎所有的常见优化手段。 项目重点介绍算法流程,不会将重点放在非常规范化的工程代码上,因此,每一个Notebook文件都可以独立运行,不会做公共逻辑的抽象。 具体包括如下话题:
- 问答数据构建
- Baseline搭建
- 检索优化
- Ensemble
- Multi Query
- Multi Vector
- RAG Fusion
- HyDE
- Reranker
- 向量模型优化
- Reranker优化
- 文档解析优化
- 文档切分优化
- 问答优化
训练集/测试集构建:
Baseline:
评估:
欢迎大家关注我的公众号,关注LLM、Langchain、Agent、Knowledge Graph等话题,会定期开源一些项目。