Voice_Face数据集适用于语音和人脸双模态关联方面的研究。它是一个包括大规模语音片段和人脸图像的基于“性别+年龄”属性对齐的数据集。其中,语音片段节选于aidatatang_1505zh数据集,人脸图像节选于CACD2000数据集。对于这两个模态的初始数据,我们进行数据清理并按照年龄段(11-20,21-30,31-40,41-50)和性别(男,女)进行属性组合,最终得到了8种属性组合下的48000个语音-人脸图像对。部分示例如Voice_example和Face_example文件夹中的数据所示。
Voice_Face数据集仅供大学和科研机构进行非商业学术研究使用。如果需要数据集,请发送申请报告至邮箱[email protected],收到您的邮件后,我们将会向您提供数据集的下载链接。