tools 包括了该项目所有涉及到数据清洗可能有帮助的工具。
本目录下主要为微调中能用上的文件,包含了各种方便使用获取数据、清理语料的工具
-
finetune/data_maker
主要涉及从零自制语言数据集相关脚本,你可以参考该文件夹的内容很容易创作属于自己的语言数据集。 -
tools/finetune/data2txt
主要涉及将任意第三方数据转化成 txt 以及训练数据 json 的相关脚本,包含常见图片OCR、视频、音频等。你可以使用该脚本从零创建一个训练语料库。 -
tools/finetune/datajson_refiner
涉及数据集相关的清洗与操作工具,可以对 json 训练数据进行基础检查与修改
本目录下主要为 RAG 中能用上的工具类,包含基础的数据清洗与分块。
本目录主要为适配 tianji 的提示词模板、整理和流水线工程相关的提示词检查工具