ZIQI-Eval: A Music Evaluation Benchmark for Large Language Models

简体中文 | English

简介

ZIQI-Eval是一个评估大语言模型综合音乐能力的测试基准，旨在填补当前LLM音乐能力评估的空白,为全面评估LLM的能力提供新的维度。数据集包括两部分:音乐理解题库和音乐生成题库。音乐理解题库以多选题形式呈现，涵盖10大类56个子类，共14244条数据条目。其中不仅包括音乐表演、作曲理论、世界民族音乐等传统分类，还涵盖流行音乐、西方音乐史、中国音乐史、中国传统音乐、音乐美学、音乐教育等内容。题目涉及流行音乐、摇滚音乐、节奏布鲁斯等各类型，并采用去中心化的设计理念，全面展现了全球音乐文化的多样性和包容性。音乐生成题库包括200个问题,测试模型的音乐延续能力。考虑到音乐生成结果评估的困难性,这部分也采用多选题的形式。特别地，我们还关注了大语言模型在黑人音乐、女性作曲家和欧洲地域中心化这三方面是否存在偏见。

排行榜

以下表格显示了模型在 zero-shot 和 five-shot 下的表现。如果您想贡献您的模型结果，请与我们联系或直接提交拉取请求。

Zero-shot

模型	作曲理论	世界民族音乐	流行音乐	西方音乐史	中国音乐史	中国传统音乐	音乐美学	音乐教育	音乐表演	女性音乐	平均分
GPT4 (gpt-4)	50.00	64.80	89.15	77.51	55.33	55.57	38.92	73.35	67.23	66.67	62.93
ChatGPT (gpt-3.5-turbo)	34.36	50.14	67.49	49.04	36.22	37.70	38.67	47.30	48.61	42.48	44.86
ChatMusician-Base	22.40	21.94	25.02	26.26	25.19	25.63	31.31	23.45	22.52	33.43	24.61
ChatGLM2-6B	18.08	24.77	32.43	21.40	24.10	26.35	16.47	25.55	26.72	19.47	24.12
Ziya-LLaMA-13B-v1.1	27.21	25.15	21.84	22.09	23.29	26.11	19.91	23.62	22.52	22.09	23.69
Qwen-7B-base	18.97	19.61	24.71	19.28	19.83	19.46	17.78	21.68	22.40	24.48	20.36
Qwen-14B-Base	15.28	24.04	25.79	16.34	16.19	17.67	18.39	20.32	18.28	20.90	18.90
XVERSE-13B	12.79	16.84	19.29	23.57	17.17	16.93	19.91	21.00	18.89	20.90	18.38
XVERSE-7B	12.79	12.35	16.81	19.06	17.40	16.35	12.92	15.83	16.22	13.73	15.75
Baichuan2-7B-Base	9.36	11.41	13.63	12.85	11.55	11.29	11.70	12.53	13.44	10.15	11.79
Baichuan-13B-Base	9.70	11.30	15.65	10.26	12.42	10.60	9.27	14.39	8.84	11.94	11.46
InternLM-7B	8.67	8.09	9.99	10.34	6.31	7.44	6.08	9.57	7.38	5.97	8.22
InternLM-20B	6.78	6.20	12.86	9.19	5.47	6.59	7.45	4.40	7.75	9.25	7.43
Baichuan-7B-Base	7.64	6.15	10.53	7.02	6.31	6.86	5.93	5.25	7.02	7.46	6.90
Baichuan2-13B-Base	6.27	3.49	8.60	6.51	5.47	3.59	3.80	3.47	3.87	8.96	5.23
educhat-base-002-13B	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.00

模型	作曲理论	世界民族音乐	流行音乐	西方音乐史	中国音乐史	中国传统音乐	音乐美学	音乐教育	音乐表演	女性音乐	平均分
GPT4 (gpt-4)	62.93	65.19	75.97	78.57	57.44	63.16	56.06	77.12	76.83	60.61	67.27
ChatGPT (gpt-3.5-turbo)	37.07	53.59	66.67	47.62	34.2	39.47	46.97	55.93	53.66	33.33	45.64
ChatGLM2-6B	18.10	16.57	27.13	30.00	24.57	28.42	36.36	31.36	28.05	33.33	26.10
XVERSE-13B	20.00	19.28	20.84	24.00	16.19	23.36	19.15	22.27	15.86	7.16	19.72
Ziya-LLaMA-13B-v1.1	26.44	25.26	17.35	22.85	23.82	20.68	20.67	27.52	24.58	19.70	22.84
Qwen-14B-Base	13.13	16.34	15.34	17.79	24.73	19.25	17.02	14.65	14.04	15.82	17.68
Baichuan2-7B-Base	7.98	6.81	12.01	7.83	11.59	9.86	9.88	9.14	12.35	9.25	9.48
XVERSE-7B	16.39	3.77	8.91	15.19	2.77	16.67	17.02	7.03	14.16	6.57	10.14
Baichuan2-13B-Base	6.44	6.87	12.39	7.79	9.80	6.59	6.69	7.87	8.23	5.37	8.01
InternLM-20B	3.35	12.63	10.07	6.64	4.41	9.34	5.47	4.91	19.25	16.42	8.06
InternLM-7B	6.52	6.81	11.93	6.09	6.53	6.49	9.12	6.86	9.20	8.06	7.22
Baichuan-13B-Base	5.92	4.93	9.22	5.32	5.28	6.22	6.23	5.67	5.81	6.57	5.84
Baichuan-7B-Base	7.21	4.99	8.37	4.64	5.09	4.43	6.23	6.18	6.30	6.87	5.60
Qwen-7B-Base	5.41	6.20	5.89	5.57	5.05	4.96	6.53	5.67	4.96	5.97	5.48
ChatMusician	2.32	4.88	2.01	5.40	4.14	4.85	1.22	6.52	3.39	4.48	4.16
educhat-base-002-13B	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.00	0.00

数据示例

数据集内的每个问题均为四选一的选择题，其中仅有一个选项为正确答案。数据采用逗号分隔，并保存为.csv文件格式。以下是数据样例：

# 西方音乐史
问题: 迪斯康特声部附加在格里高利圣咏的（ ）。
A.上方
B.下方
C.上下方皆有
D.与奥尔加农声部相同
答案: A

# 中国音乐史
问题: 《阳关三叠》是现存唐诗与音乐巧妙融合的典范，源于唐朝诗人王维的七言律诗《送元二使安西》。全诗纯净秀美，满怀依依惜别之情；唐宋时用一个曲调变化反复，叠唱三次，故称“三叠”。歌曲情深意切地表达了对即将远行友人的无限关怀和诚挚的感情。这种我国古代诗歌与音乐结合的活化石，音乐类型被称作____。
A.琴歌 
B.京韵大鼓
C.山东琴书
D.四川清音
答案: A

# 中国民族民间音乐
问题: 十二木卡姆已被列入联合国教科文组织非物质文化遗产名录，它是属于____。
A.新疆维吾尔族
B.藏族
C.苗族
D.满族
答案: A

使用方法

要在您的项目中使用我们的代码，请将存储库克隆到本地计算机：

git clone https://github.com/zcli-charlie/ZIQI-Eval.git
cd ZIQI-Eval/src

数据

我们根据每个评测维度在 data/dev 和 data/test 目录中提供了开发和测试数据集。

引用

@misc{li2023ziqieval,
      title={ZIQI-Eval: A Library and Information Science Benchmark for Large Language Models}, 
      author={XXXXX},
      year={2024},
      eprint={xxx},
      archivePrefix={xxxx},
      primaryClass={cs.CL}
}

许可证

ZIQI-Eval数据集采用 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

Name		Name	Last commit message	Last commit date
Latest commit History 31 Commits
ZIQI-Eval		ZIQI-Eval
ZIQI-fiveshot/test		ZIQI-fiveshot/test
src		src
.DS_Store		.DS_Store
README.md		README.md
README_EN.md		README_EN.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

ZIQI-Eval: A Music Evaluation Benchmark for Large Language Models

简体中文 | English

简介

排行榜

Zero-shot

数据示例

使用方法

数据

引用

许可证

About

Releases

Packages

Contributors 2

Languages

zcli-charlie/ZIQI-Eval

Folders and files

Latest commit

History

Repository files navigation

ZIQI-Eval: A Music Evaluation Benchmark for Large Language Models

简体中文 | English

简介

排行榜

Zero-shot

数据示例

使用方法

数据

引用

许可证

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages