llm-action/llmops at main · summit8848/llm-action

README.md

千帆大模型平台：

数据集对应关系说明：

模型评估

人工评估：综合人类专家的主观见解、经验等从不同评价维度对模型回复进行打分，用于评估模型回复的效果。

自动评估：对⽣成式⼤模型的输出效果进⾏全⽅位评价，提供⾯向事实类或开放性问答的多种打分模式；

自动规则打分计算模型预测结果与真实标注的文本相似度指标（例如ROUGE、BLUE等），适合标准选择题或简单问答场景。

自动裁判员打分使用能力更强的大模型作为裁判员，对被评估模型的生成结果进行自动化打分，适用于开放性或复杂问答场景。