千帆大模型平台:
- https://cloud.baidu.com/product/wenxinworkshop
- https://cloud.baidu.com/doc/WENXINWORKSHOP/s/Xlkb0e6eu
数据集对应关系说明:
https://cloud.baidu.com/doc/WENXINWORKSHOP/s/Wlj3vd4gy
模型评估
人工评估: 综合人类专家的主观见解、经验等从不同评价维度对模型回复进行打分,用于评估模型回复的效果。
自动评估: 对⽣成式⼤模型的输出效果进⾏全⽅位评价,提供⾯向事实类或开放性问答的多种打分模式;
自动规则打分 计算模型预测结果与真实标注的文本相似度指标(例如ROUGE、BLUE等),适合标准选择题或简单问答场景。
自动裁判员打分 使用能力更强的大模型作为裁判员,对被评估模型的生成结果进行自动化打分,适用于开放性或复杂问答场景。