在自然语言处理领域中,预训练语言模型(Pre-trained Language Models,PLMs)已成为非常重要的基础技术。在近两年,哈工大讯飞联合实验室发布了多种中文预训练模型资源以及相关配套工具。作为相关工作的延续,在本项目中,我们提出了一种基于乱序语言模型的预训练模型(PERT),在不引入掩码标记[MASK]的情况下自监督地学习文本语义信息。PERT在部分中英文NLU任务上获得性能提升,但也在部分任务上效果较差,请酌情使用。目前提供了中文和英文的PERT模型,包含两种模型大小(base、large)。
- PERT: Pre-Training BERT with Permuted Language Model
- Yiming Cui, Ziqing Yang, Ting Liu
中文LERT | 中英文PERT | 中文MacBERT | 中文ELECTRA | 中文XLNet | 中文BERT | 知识蒸馏工具TextBrewer | 模型裁剪工具TextPruner
查看更多哈工大讯飞联合实验室(HFL)发布的资源:https://github.com/ymcui/HFL-Anthology
2023/3/28 开源了中文LLaMA&Alpaca大模型,可快速在PC上部署体验,查看:https://github.com/ymcui/Chinese-LLaMA-Alpaca
2022/10/29 我们提出了一种融合语言学信息的预训练模型LERT。查看:https://github.com/ymcui/LERT
2022/5/7 更新了在多个阅读理解数据集上精调的阅读理解专用PERT,并提供了huggingface在线交互Demo,check:模型下载
2022/3/15 技术报告已发布,请参考:https://arxiv.org/abs/2203.06906
2022/2/24 中文、英文的PERT-base和PERT-large已发布。可直接使用BERT结构加载并进行下游任务精调。技术报告待完善后发出,时间预计在3月中旬,感谢耐心等待。
2022/2/17 感谢对本项目的关注,预计下周发出模型,技术报告待完善后发出。
章节 | 描述 |
---|---|
简介 | PERT预训练模型的基本原理 |
模型下载 | PERT预训练模型的下载地址 |
快速加载 | 如何使用🤗Transformers快速加载模型 |
基线系统效果 | 在部分中英文NLU任务上的基线系统效果 |
FAQ | 常见问题答疑 |
引用 | 本项目的技术报告 |
面向自然语言理解(NLU)的预训练模型的学习大致分为两类:使用和不使用带掩码标记[MASK]的输入文本。
算法启发:一定程度的乱序文本不影响理解。那么能否从乱序文本中学习语义知识?
大体思想:PERT对原始输入文本进行一定的词序调换,从而形成乱序文本(因此不会引入额外的[MASK]标记)。PERT的学习目标是预测原token所在的位置,具体见下例。
说明 | 输入文本 | 输出目标 |
---|---|---|
原始文本 | 研究表明这一句话的顺序并不影响阅读。 | - |
WordPiece分词后 | 研 究 表 明 这 一 句 话 的 顺 序 并 不 影 响 阅 读 。 | - |
BERT | 研 究 表 明 这 一 句 [MASK] 的 顺 [MASK] 并 不 [MASK] 响 阅 读 。 | 位置7 → 话 位置10 → 序 位置13 → 影 |
PERT | 研 究 明 表 这 一 句 话 的 顺 序 并 不 响 影 阅 读 。 | 位置2(明)→位置3(表) 位置3(表)→位置2(明) 位置13(响)→位置14(影) 位置14(影)→位置13(响) |
以下是PERT模型在预训练阶段的基本结构和输入输出格式(注意:目前arXiv技术报告中的图片有误,请以下图为准。下次更新论文时会替换为正确图片。)。
这里主要提供TensorFlow 1.15版本的模型权重。如需PyTorch或者TensorFlow2版本的模型,请看下一小节。
开源版本仅包含Transformer部分的权重,可直接用于下游任务精调,或者其他预训练模型二次预训练的初始权重,更多说明见FAQ。
PERT-large
:24-layer, 1024-hidden, 16-heads, 330M parametersPERT-base
12-layer, 768-hidden, 12-heads, 110M parameters
模型简称 | 语种 | 语料 | Google下载 | 百度盘下载 |
---|---|---|---|---|
Chinese-PERT-large | 中文 | EXT数据[1] | TensorFlow | TensorFlow(密码:e9hs) |
Chinese-PERT-base | 中文 | EXT数据[1] | TensorFlow | TensorFlow(密码:rcsw) |
English-PERT-large (uncased) | 英文 | WikiBooks[2] | TensorFlow | TensorFlow(密码:wxwi) |
English-PERT-base (uncased) | 英文 | WikiBooks[2] | TensorFlow | TensorFlow(密码:8jgq) |
[1] EXT数据包括:中文维基百科,其他百科、新闻、问答等数据,总词数达5.4B,约占用20G磁盘空间,与MacBERT相同。
[2] Wikipedia + BookCorpus
以TensorFlow版Chinese-PERT-base
为例,下载完毕后对zip文件进行解压得到:
chinese_pert_base_L-12_H-768_A-12.zip
|- pert_model.ckpt # 模型权重
|- pert_model.meta # 模型meta信息
|- pert_model.index # 模型index信息
|- pert_config.json # 模型参数
|- vocab.txt # 词表(与谷歌原版一致)
其中bert_config.json
和vocab.txt
与谷歌原版BERT-base, Chinese
完全一致(英文版与BERT-uncased版本一致)。
通过🤗transformers模型库可以下载TensorFlow (v2)和PyTorch版本模型。
下载方法:点击任意需要下载的模型 → 选择"Files and versions"选项卡 → 下载对应的模型文件。
模型简称 | 模型文件大小 | transformers模型库地址 |
---|---|---|
Chinese-PERT-large | 1.2G | https://huggingface.co/hfl/chinese-pert-large |
Chinese-PERT-base | 0.4G | https://huggingface.co/hfl/chinese-pert-base |
Chinese-PERT-large-MRC | 1.2G | https://huggingface.co/hfl/chinese-pert-large-mrc |
Chinese-PERT-base-MRC | 0.4G | https://huggingface.co/hfl/chinese-pert-base-mrc |
English-PERT-large | 1.2G | https://huggingface.co/hfl/english-pert-large |
English-PERT-base | 0.4G | https://huggingface.co/hfl/english-pert-base |
由于PERT主体部分仍然是BERT结构,用户可以使用transformers库轻松调用PERT模型。
注意:本目录中的所有模型均使用BertTokenizer以及BertModel加载(MRC模型使用BertForQuestionAnswering)。
from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained("MODEL_NAME")
model = BertModel.from_pretrained("MODEL_NAME")
其中MODEL_NAME
对应列表如下:
模型名 | MODEL_NAME |
---|---|
Chinese-PERT-large | hfl/chinese-pert-large |
Chinese-PERT-base | hfl/chinese-pert-base |
Chinese-PERT-large-MRC | hfl/chinese-pert-large-mrc |
Chinese-PERT-base-MRC | hfl/chinese-pert-base-mrc |
English-PERT-large | hfl/english-pert-large |
English-PERT-base | hfl/english-pert-base |
以下仅列举部分实验结果。详细结果和分析见论文。实验结果表格中,括号外为最大值,括号内为平均值。
在以下10个任务上进行了效果测试。
- 抽取式阅读理解(2):CMRC 2018(简体中文)、DRCD(繁体中文)
- 文本分类(6):
- 命名实体识别(2):MSRA-NER、People's Daily(人民日报)
除了上述任务之外,我们还在文本纠错中的乱序任务上进行了测试,效果如下。
在以下6个任务上进行了效果测试。
- 抽取式阅读理解(2):SQuAD 1.1、SQuAD 2.0
- GLUE子任务(4):MNLI、SST-2、CoLA、MRPC
Q1: 关于PERT的开源版本权重
A1: 开源版本仅包含Transformer部分的权重,可直接用于下游任务精调,或者其他预训练模型二次预训练的初始权重。原始TF版本权重可能包含随机初始化的MLM权重。这是为了:
- 删去不必要的Adam相关权重(大约会减小至1/3);
- 与transformers的BERT模型转换一致(此过程会使用原版BERT结构,因此预训练任务部分的权重会丢失,并保留BERT的MLM随机初始化权重)。
Q2: 关于PERT在下游任务上的效果
A2: 初步结论是在阅读理解、序列标注等任务上效果较好,但在文本分类任务上效果较差。具体效果请各位在各自任务上自行尝试。具体细节请参考我们的论文:https://arxiv.org/abs/2203.06906
如果本项目中的模型或者相关结论有助于您的研究,请引用以下文章:https://arxiv.org/abs/2203.06906
@article{cui2022pert,
title={PERT: Pre-training BERT with Permuted Language Model},
author={Cui, Yiming and Yang, Ziqing and Liu, Ting},
year={2022},
eprint={2203.06906},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
欢迎关注哈工大讯飞联合实验室官方微信公众号,了解最新的技术动态。
如有问题,请在GitHub Issue中提交。
- 在提交问题之前,请先查看FAQ能否解决问题,同时建议查阅以往的issue是否能解决你的问题。
- 重复以及与本项目无关的issue会被[stable-bot](stale · GitHub Marketplace)处理,敬请谅解。
- 我们会尽可能的解答你的问题,但无法保证你的问题一定会被解答。
- 礼貌地提出问题,构建和谐的讨论社区。