GitHub - GISer2000/chinese_ner_place: 基于Bert模型，自定义了一个地名数据集（国家名称），训练了一个可以从非结构化的中文文本中提取地名的NER模型。

简介

嵌入在线自然语言文本中的地名是地理信息的有用来源。尽管如此，许多从文本中提取地名的方法都使用未专门为此任务设计的预训练模型。本项目参考《Transformer based named entity recognition for place name extraction from unstructured text》的方法，使用中文数据集，训练了一个用于从中文非结构化的文本中提取地名。

文件说明：

data：文本，包括标注数据
bert_ner.ipynb：基线模型
bert_crf_ner.ipynb：拟议模型
crf.py：条件随机场（Conditional Random Field），拟议模型需要用到
model：需要自己下载bert-base-chinese模型，放到这个目录（没有的话自己创建）

标注数据

使用MarkStudio进行实体标注。MarkStudio是一款功能丰富的数据标注工具，已支持实体标注、文本分类、文本翻译、关系标注、对话标注。

使用BIO-三位序列标注法(B-begin，I-inside，O-outside)标注数据：

B-X代表实体X的开头
I-X代表实体X的中间或结尾
O代表不属于任何类型的

拟议模型

Embedding layer：
- Pre-trained: Transformer
Intermediate layers:
- Transformer
Classification layer:
- CRF

结果

数据集说明：

外交部门公开的新闻标题，这里是示例
500条标注数据
数据划分：train:val:test ——> 8:1:1

测试集上的精度：

模型	Accuracy	Macro-Precision	Macro-Recall	Macro-F1
BERT	0.9962	0.9822	0.9880	0.9851
BERT_CRF	0.9962	0.9880	0.9880	0.9880

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
data		data
README.md		README.md
bert_crf_ner.ipynb		bert_crf_ner.ipynb
bert_ner.ipynb		bert_ner.ipynb
crf.py		crf.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

简介

标注数据

拟议模型

结果

About

Releases

Packages

Languages

GISer2000/chinese_ner_place

Folders and files

Latest commit

History

Repository files navigation

简介

标注数据

拟议模型

结果

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages