https://arxiv.org/abs/2307.10928

FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets (Seonghyeon Ye, Doyoung Kim, Sungdong Kim, Hyeonbin Hwang, Seungone Kim, Yongrae Jo, James Thorne, Juho Kim, Minjoon Seo)

align된 llm의 성능을 각 사례에 필요한 스킬들로 나눠서 측정. 큰 단계에서 preference를 보는 것이 아니라 스킬 레벨에서, 예컨대 논리성이나 간결성 같은 특성을 보는 벤치마크군요. 꽤 좋은 척도 같네요.

#alignment #benchmark

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

230720 FLASK.md

230720 FLASK.md

Files

230720 FLASK.md

Latest commit

History

230720 FLASK.md

File metadata and controls