bosonNER data pretreatment 玻森命名实体识别数据集的预处理,按照8:1:1进行训练集、验证集与测试集的切分,标注体系BMES
- python处理程序执行后,读取data文件夹下的boson数据,处理后在result文件夹生成BMES标注的训练集、验证集与测试集。
- data文件夹中的数据为从boson官网下载的原始数据,只不过改了很少几处错误。比如说“}}}}”括号的问题等等乱七八糟的,忘记记录了,数据内容无更改,只是改错。
我把这个数据集用在了下面这篇论文中,欢迎引用
胡新棒, 于溆乔, 李邵梅, 张建朋 . 基于知识增强的中文命名实体识别[J]. 计算机工程, doi: 10.19678/j.issn.1000-3428.0059810