文字识别

PytorchOCR的识别模块支持TextLine 和 LMDB 形式的数据格式

我们也提供准备好一批准换好的训练数据，具体请参考 https://github.com/WenmuZhou/OCR_DataSet

PytorchOCR提供了训练脚本和预测脚本，本节将以 CRNN 识别模型为例，按照如下步骤启动训练：

下载预训练模型(待提供)
拷贝config/rec_train_config.py 为自己的配置文件，LMDB 数据集使用 config/rec_train_lmdb_config.py
修改配置文件
- 必须修改的字段说明
1. config.dataset.alphabet: 字典文件
2. config.dataset.train.dataset.file: 训练集txt文件 or LMDB 数据集路径
3. config.dataset.eval.dataset.file: 验证集集txt文件 or LMDB 数据集路径
4. config.model.head.n_class: 分类字符数+背景
- 可选修改字段说明
1. config.train_options.checkpoint_save_dir: 模型和日志文件保存地址
其他字段可根据需要修改
通过如下命令启动训练

CUDA_VISIBLE_DEVICES=0 python3 tools/rec_train.py --config '你的配置文件路径'

PytorchOCR支持训练和评估交替进行, 可以在 config.train_options中修改 val_interval 设置评估频率，评估过程中默认将最佳acc模型，保存为 best.pth。

只需修改 config.train_options.resume_from 为模型地址，即可从该模型断掉的地方继续训练

通过以下命令启动预测

CUDA_VISIBLE_DEVICES=0 python3 tools/rec_infer.py --model_path '' --img_path ''

Provide feedback