Skip to content

Latest commit

 

History

History
 
 

llmops

千帆大模型平台:


数据集对应关系说明:

https://cloud.baidu.com/doc/WENXINWORKSHOP/s/Wlj3vd4gy


模型评估

人工评估: 综合人类专家的主观见解、经验等从不同评价维度对模型回复进行打分,用于评估模型回复的效果。

自动评估: 对⽣成式⼤模型的输出效果进⾏全⽅位评价,提供⾯向事实类或开放性问答的多种打分模式;

自动规则打分 计算模型预测结果与真实标注的文本相似度指标(例如ROUGE、BLUE等),适合标准选择题或简单问答场景。

自动裁判员打分 使用能力更强的大模型作为裁判员,对被评估模型的生成结果进行自动化打分,适用于开放性或复杂问答场景。