Skip to content

Latest commit

 

History

History
30 lines (22 loc) · 1 KB

README.md

File metadata and controls

30 lines (22 loc) · 1 KB

CTCDataset

本仓库收集了一些中文拼写/语法纠错数据集,可用于中文纠错模型的训练。数据集均被处理为如下的 jsonl 格式:

{
  "source": "各市务必及时将报名及审核的方式、时间、地点和打印准考准考证的网址、时间及方式进行公告,确保应试人员顺利报名和报参加考试。",
  "target": "各市务必及时将报名及审核的方式、时间、地点和打印准考证的网址、时间及方式进行公告,确保应试人员顺利报名和参加考试。"
}

各数据集的样本数统计如下:

数据集 样本数
CTC2021 217634
Wang271K 271281
MD-CSC-公文 2219
MD-CSC-法律 2460
MD-CSC-医疗 3500
sighan13-train 700
sighan13-test 1000
sighan14-train 3437
sighan14-test 1062
sighan15-train 2339
sighan15-test 1100