From b8f37defc04fb018c2ebdbd23b1453c2b7180a3f Mon Sep 17 00:00:00 2001 From: ymcui Date: Mon, 20 Jan 2020 10:58:23 +0800 Subject: [PATCH] happy new year! we've published rbt3 and rbtl3 --- README.md | 39 +++++++++++++++++++++++++++++++++++++-- 1 file changed, 37 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index f8b68b1..6e6a2de 100644 --- a/README.md +++ b/README.md @@ -17,7 +17,9 @@ ## 新闻 -**2019/12/19 本目录发布的模型已接入[Huggingface-Transformers](https://github.com/huggingface/transformers),查看[快速加载](#快速加载)** +**2020/1/20 祝大家鼠年大吉,本次发布了RBT3、RBTL3(3层RoBERTa-wwm-ext-base/large),查看[小参数量模型](#小参数量模型)** + +2019/12/19 本目录发布的模型已接入[Huggingface-Transformers](https://github.com/huggingface/transformers),查看[快速加载](#快速加载) 2019/10/14 发布萝卜塔RoBERTa-wwm-ext-large模型,查看[中文模型下载](#中文模型下载) @@ -35,6 +37,7 @@ | [中文模型下载](#中文模型下载) | 提供了BERT-wwm的下载地址 | | [模型对比](#模型对比) | 提供了本目录中模型的参数对比 | | [中文基线系统效果](#中文基线系统效果) | 列举了部分中文基线系统效果 | +| [new 小参数量模型](#小参数量模型) | 列举了小参数量模型(3层Transformer)的效果 | | [使用建议](#使用建议) | 提供了若干使用中文预训练模型的建议 | | [英文模型下载](#英文模型下载) | 谷歌官方的英文BERT-wwm下载地址 | | [FAQ](#FAQ) | 常见问题答疑 | @@ -71,7 +74,8 @@ | 模型简称 | 语料 | Google下载 | 讯飞云下载 | | :------- | :--------- | :---------: | :---------: | -| ? | ? | ? | ? | +| **`RBTL3, Chinese`** | **中文维基+
通用数据[1]** | **TensorFlow**
**PyTorch** | **[TensorFlow(密码vySW)](https://pan.iflytek.com:443/link/0DD18FAC080BAF75DBA28FB5C0047760)**
**[PyTorch(密码rgCs)](https://pan.iflytek.com:443/link/7C6A513BED2D42170B6DBEE5A866FB3F)** | +| **`RBT3, Chinese`** | **中文维基+
通用数据[1]** | **TensorFlow**
**PyTorch** | **[TensorFlow(密码b9nx)](https://pan.iflytek.com:443/link/275E5B46185C982D4AF5AC295E1651B6)**
**[PyTorch(密码Yoep)](https://pan.iflytek.com:443/link/A094EB0A73B1E7209FEBC6C5CF7AEF27)** | | **`RoBERTa-wwm-ext-large, Chinese`** | **中文维基+
通用数据[1]** | **[TensorFlow](https://drive.google.com/open?id=1dtad0FFzG11CBsawu8hvwwzU2R0FDI94)**
**[PyTorch](https://drive.google.com/open?id=1-2vEZfIFCdM1-vJ3GD6DlSyKT4eVXMKq)** | **[TensorFlow(密码u6gC)](https://pan.iflytek.com:443/link/AC056611607108F33A744A0F56D0F6BE)**
**[PyTorch(密码43eH)](https://pan.iflytek.com:443/link/9B46A0ABA70C568AAAFCD004B9A2C773)** | | **`RoBERTa-wwm-ext, Chinese`** | **中文维基+
通用数据[1]** | **[TensorFlow](https://drive.google.com/open?id=1jMAKIJmPn7kADgD3yQZhpsqM-IRM1qZt)**
**[PyTorch](https://drive.google.com/open?id=1eHM3l4fMo6DsQYGmey7UZGiTmQquHw25)** | **[TensorFlow(密码Xe1p)](https://pan.iflytek.com:443/link/98D11FAAF0F0DBCB094EE19CCDBC98BF)**
**[PyTorch(密码waV5)](https://pan.iflytek.com:443/link/92ADD2C34C91F3B44E0EC97F101F89D8)**| | **`BERT-wwm-ext, Chinese`** | **中文维基+
通用数据[1]** | **[TensorFlow](https://drive.google.com/open?id=1buMLEjdtrXE2c4G1rpsNGWEx7lUQ0RHi)**
**[PyTorch](https://drive.google.com/open?id=1iNeYFhCBJWeUsIlnW_2K6SMwXkM4gLb_)** | **[TensorFlow(密码4cMG)](https://pan.iflytek.com:443/link/653637473FFF242C3869D77026C9BDB5)**
**[PyTorch(密码XHu4)](https://pan.iflytek.com:443/link/B9ACE1C9F228A0F42242672EF6CE1721)** | @@ -98,6 +102,7 @@ chinese_wwm_L-12_H-768_A-12.zip 其中`bert_config.json`和`vocab.txt`与谷歌原版`BERT-base, Chinese`完全一致。 PyTorch版本则包含`pytorch_model.bin`, `bert_config.json`, `vocab.txt`文件。 + ### 快速加载 依托于[Huggingface-Transformers 2.2.2](https://github.com/huggingface/transformers),可轻松调用以上模型。 ``` @@ -114,6 +119,9 @@ model = BertModel.from_pretrained("MODEL_NAME") | RoBERTa-wwm-ext | hfl/chinese-roberta-wwm-ext | | BERT-wwm-ext | hfl/chinese-bert-wwm-ext | | BERT-wwm | hfl/chinese-bert-wwm | +| RBT3 | hfl/rbt3 | +| RBTL3 | hfl/rbtl3 | + ### 测试任务数据 我们提供部分任务数据,请查看`data`目录了解。 @@ -298,6 +306,33 @@ model = BertModel.from_pretrained("MODEL_NAME") | **RoBERTa-wwm-ext-large** | 98.3 (97.7) | 97.8 (97.6) | +### 小参数量模型 +以下是在若干NLP任务上的实验效果,表中只提供测试集结果对比。 + +| 模型 | CMRC 2018 | DRCD | XNLI | CSC | LCQMC | BQ | 平均 | 参数量 | +| :------- | :---------: | :---------: | :---------: | :---------: | :---------: | :---------: | :---------: | :---------: | +| RoBERTa-wwm-ext-large | 74.2 / 90.6 | 89.6 / 94.5 | 81.2 | 95.8 | 87.0 | 85.8 | 87.335 | 325M | +| RoBERTa-wwm-ext | 72.6 / 89.4 | 85.6 / 92.0 | 78.8 | 95.6 | 86.4 | 85.0 | 85.675 | 102M | +| RBTL3 | 63.3 / 83.4 | 77.2 / 85.6 | 74.0 | 94.2 | 85.1 | 83.6 | 80.800 | 61M (59.8%) | +| RBT3 | 62.2 / 81.8 | 75.0 / 83.9 | 72.3 | 92.8 | 85.1 | 83.3 | 79.550 | 38M (37.3%) | + +效果相对值比较: + +| 模型 | CMRC 2018 | DRCD | XNLI | CSC | LCQMC | BQ | 平均 | 分类平均 | +| :------- | :---------: | :---------: | :---------: | :---------: | :---------: | :---------: | :---------: | :---------: | +| RoBERTa-wwm-ext-large | 102.2% / 101.3% | 104.7% / 102.7% | 103.0% | 100.2% | 100.7% | 100.9% | 101.9% | 101.2% | +| RoBERTa-wwm-ext | 100% / 100% | 100% / 100% | 100% | 100% | 100% | 100% | 100% | 100% | +| RBTL3 | 87.2% / 93.3% | 90.2% / 93.0% | 93.9% | 98.5% | 98.5% | 98.4% | 94.3% | 97.35% | +| RBT3 | 85.7% / 91.5% | 87.6% / 91.2% | 91.8% | 97.1% | 98.5% | 98.0% | 92.9% | 96.35% | + +- 参数量是以XNLI分类任务为基准进行计算 +- 括号内参数量百分比以原始base模型(即RoBERTa-wwm-ext)为基准 +- RBT3:由RoBERTa-wwm-ext 3层进行初始化,继续训练了1M步 +- RBTL3:由RoBERTa-wwm-ext-large 3层进行初始化,继续训练了1M步 +- RBT的名字是RoBERTa三个音节首字母组成,L代表large模型 +- 直接使用RoBERTa-wwm-ext-large前三层进行初始化并进行下游任务的训练将显著降低效果,例如在CMRC 2018上测试集仅能达到42.9/65.3,而RBTL3能达到63.3 / 83.4 + + ## 使用建议 * 初始学习率是非常重要的一个参数(不论是`BERT`还是其他模型),需要根据目标任务进行调整。 * `ERNIE`的最佳学习率和`BERT`/`BERT-wwm`相差较大,所以使用`ERNIE`时请务必调整学习率(基于以上实验结果,`ERNIE`需要的初始学习率较高)。