本仓库收集了一些中文拼写/语法纠错数据集,可用于中文纠错模型的训练。数据集均被处理为如下的 jsonl 格式:
{
"source": "各市务必及时将报名及审核的方式、时间、地点和打印准考准考证的网址、时间及方式进行公告,确保应试人员顺利报名和报参加考试。",
"target": "各市务必及时将报名及审核的方式、时间、地点和打印准考证的网址、时间及方式进行公告,确保应试人员顺利报名和参加考试。"
}
各数据集的样本数统计如下:
数据集 | 样本数 |
---|---|
CTC2021 | 217634 |
Wang271K | 271281 |
MD-CSC-公文 | 2219 |
MD-CSC-法律 | 2460 |
MD-CSC-医疗 | 3500 |
sighan13-train | 700 |
sighan13-test | 1000 |
sighan14-train | 3437 |
sighan14-test | 1062 |
sighan15-train | 2339 |
sighan15-test | 1100 |