基于深度学习Pytorch框架的文本分类

1、修改配置文件

在config.py文件中对常规参数进行修改。

# data preprocess
data_path = 'dataset'
train_file = 'train.csv'
valid_file = 'valid.csv'
test_file = 'test.csv'
fix_length = 256
batch_size = 64
# data label list
label_list = ['低危', '中危', '高危', '超危']
class_number = len(label_list)
# train details
epochs = 30
learning_rate = 1e-3

其中，fix_length需要自己统计出数据集中的文本长度分布比例，进行合适的参数选择。batch_size需要根据显卡的显存大小进行参数选择。label_list需要换成对应数据集的标签列表。

2、选择合适的模型

在train.py中修改模型和模型命名。分别在97和98行进行修改。

3、模型

模型都直接定义在model/目录下，在forward最后返回的out的形状应该是[batch size, num_classes]这样的。

4、训练

模型中的超参数，例如hidden_size, multi_heads, n_layers需要自行修改。

修改完train.py中上述2处直接run就行，训练好的模型将保存在done_model/目录下。

5、使用训练好的模型进行文本分类

修改Classify.py中 model = getModel('Transformer') ，模型改为之前训练好的模型名称。

然后直接run Classify.py就行。

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
dataset		dataset
imgs		imgs
model		model
Classify.py		Classify.py
Config.py		Config.py
DataSet.py		DataSet.py
LICENSE		LICENSE
readme.md		readme.md
train.py		train.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

基于深度学习Pytorch框架的文本分类

1、修改配置文件

2、选择合适的模型

3、模型

4、训练

5、使用训练好的模型进行文本分类

About

Releases

Packages

Languages

License

NTDXYG/Text-Classify-based-pytorch

Folders and files

Latest commit

History

Repository files navigation

基于深度学习Pytorch框架的文本分类

1、修改配置文件

2、选择合适的模型

3、模型

4、训练

5、使用训练好的模型进行文本分类

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages