GitHub - berleyzheng/TextClassification: 基于预训练模型（BERT，BERT-wwm）的文本分类模板，CCF BDCI新闻情感分析A榜4/2735。

作者ustc-linhw

本文件为文本分类任务

目前支持的功能如下：

—— 训练数据集kfold处理

—— 训练数据集数据信息查看

—— 使用预训练模型进行文本分类

—— roberta_wwm_ext_large

—— roberta_large

—— xlnet_large (to do)

—— 不同模型结果进行投票ensemble

—— 对于训练完成的模型自动保存模型，配置以及输出结果

主要文件目录如下：

—— backup-models:自动存档目录，输出的模型和结果会自动存档到该目录

—— data：数据文件，用于存放训练用的数据，在该文件下数据分析，数据kfold处理

—— pretrained_model: 用于存放预训练的模型

—— run_xxxxx.sh: 训练某个模型所使用的bash文件

—— run_xxxx.py: 具体的训练代码

—— ensemble_submits：对输出的result文件进行vote融合结果

具体使用流程

—— preprocess.py

—— run_bert.py

—— 标签label

—— 类别数

—— 类别loss

—— combine.py

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
backup-models		backup-models
data		data
ensemble_submits		ensemble_submits
hubconfs		hubconfs
pretrained_model		pretrained_model
pytorch_transformers		pytorch_transformers
LICENSE		LICENSE
README.md		README.md
combine.py		combine.py
final_changed.py		final_changed.py
hubconf.py		hubconf.py
requirements.txt		requirements.txt
run_bert.py		run_bert.py
run_bert.sh		run_bert.sh
run_bert_wwm_ext.sh		run_bert_wwm_ext.sh
run_roberta.sh		run_roberta.sh
run_roberta_wwm_ext.sh		run_roberta_wwm_ext.sh
run_xlnet.py		run_xlnet.py
run_xlnet.sh		run_xlnet.sh
setup.py		setup.py

Provide feedback