Skip to content

zejunwang1/CTCDataset

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

CTCDataset

本仓库收集了一些中文拼写/语法纠错数据集,可用于中文纠错模型的训练。数据集均被处理为如下的 jsonl 格式:

{
  "source": "各市务必及时将报名及审核的方式、时间、地点和打印准考准考证的网址、时间及方式进行公告,确保应试人员顺利报名和报参加考试。",
  "target": "各市务必及时将报名及审核的方式、时间、地点和打印准考证的网址、时间及方式进行公告,确保应试人员顺利报名和参加考试。"
}

各数据集的样本数统计如下:

数据集 样本数
CTC2021 217634
Wang271K 271281
MD-CSC-公文 2219
MD-CSC-法律 2460
MD-CSC-医疗 3500
sighan13-train 700
sighan13-test 1000
sighan14-train 3437
sighan14-test 1062
sighan15-train 2339
sighan15-test 1100

About

中文纠错数据集汇总

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published