Skip to content

TextCNN,TextRNN,TextRCNN, DPCNN, Bert,中文文本分类

Notifications You must be signed in to change notification settings

rickltt/Text_Classification

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

21 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Text_Classification

中文文本分类,Bert,BertCNN, BertRNN, BertRCNN, BertDPCNN, TextCNN,TextRNN,TextRCNN,DPCNN。

环境

  • numpy==1.23.5
  • scikit_learn==1.2.2
  • torch==1.10.0
  • tqdm==4.64.1
  • transformers==4.18.0

中文数据集

THUCNews

类别:财经、房产、股票、教育、科技、社会、时政、体育、游戏、娱乐。

数据集划分:

数据集 数据量
训练集 18万
验证集 1万
测试集 1万

头条新闻数据集

数据规模:

共382688条,分布于15个分类中。0.7、0.15、0.15比例划分数据集,验证集,测试集。

数据处理函数可见process_data.py , toutiao_cat_data.txt可以在这里下载

15个分类:

故事 news_story
文化 news_culture
娱乐 news_entertainment
体育 news_sports
财经 news_finance
房产 news_house
汽车 news_car
教育 news_edu 
科技 news_tech
军事 news_military
旅游 news_travel
国际 news_world
股票 stock
三农 news_agriculture
游戏 news_game

更换自己数据集

  • 按照data/THUCNews/格式化自己的数据集
  • 提前分好词,词之间用空格隔开
  • 使用预训练词向量:pretrained下面更换自己的词向量

使用说明

Bert模型在Bert下面,CNN和RNN的模型在CNN&RNN下面。

model_type: TextCNN, TextRNN, TextRCNN, DPCNN, Bert, BertCNN, BertRNN, BertRCNN, BertDPCNN

python run.py --do_train --do_eval --model_type Bert

Trainer

使用Transformers的Trainer的代码在Trainer下面, 支持Bert, BertCNN, BertRNN, BertRCNN, BertDPCNN。

对应论文

About

TextCNN,TextRNN,TextRCNN, DPCNN, Bert,中文文本分类

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published