Skip to content

Commit

Permalink
happy new year! we've published rbt3 and rbtl3
Browse files Browse the repository at this point in the history
  • Loading branch information
ymcui committed Jan 20, 2020
1 parent d268313 commit b8f37de
Showing 1 changed file with 37 additions and 2 deletions.
39 changes: 37 additions & 2 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -17,7 +17,9 @@


## 新闻
**2019/12/19 本目录发布的模型已接入[Huggingface-Transformers](https://github.com/huggingface/transformers),查看[快速加载](#快速加载)**
**2020/1/20 祝大家鼠年大吉本次发布了RBT3RBTL33层RoBERTa-wwm-ext-base/large),查看[小参数量模型](#小参数量模型)**

2019/12/19 本目录发布的模型已接入[Huggingface-Transformers](https://github.com/huggingface/transformers),查看[快速加载](#快速加载)

2019/10/14 发布萝卜塔RoBERTa-wwm-ext-large模型查看[中文模型下载](#中文模型下载)

Expand All @@ -35,6 +37,7 @@
| [中文模型下载](#中文模型下载) | 提供了BERT-wwm的下载地址 |
| [模型对比](#模型对比) | 提供了本目录中模型的参数对比 |
| [中文基线系统效果](#中文基线系统效果) | 列举了部分中文基线系统效果 |
| [new 小参数量模型](#小参数量模型) | 列举了小参数量模型(3层Transformer)的效果 |
| [使用建议](#使用建议) | 提供了若干使用中文预训练模型的建议 |
| [英文模型下载](#英文模型下载) | 谷歌官方的英文BERT-wwm下载地址 |
| [FAQ](#FAQ) | 常见问题答疑 |
Expand Down Expand Up @@ -71,7 +74,8 @@

| 模型简称 | 语料 | Google下载 | 讯飞云下载 |
| :------- | :--------- | :---------: | :---------: |
| ? | ? | ? | ? |
| **`RBTL3, Chinese`** | **中文维基+<br/>通用数据<sup>[1]</sup>** | **TensorFlow**<br/>**PyTorch** | **[TensorFlow密码vySW)](https://pan.iflytek.com:443/link/0DD18FAC080BAF75DBA28FB5C0047760)**<br/>**[PyTorch密码rgCs)](https://pan.iflytek.com:443/link/7C6A513BED2D42170B6DBEE5A866FB3F)** |
| **`RBT3, Chinese`** | **中文维基+<br/>通用数据<sup>[1]</sup>** | **TensorFlow**<br/>**PyTorch** | **[TensorFlow密码b9nx)](https://pan.iflytek.com:443/link/275E5B46185C982D4AF5AC295E1651B6)**<br/>**[PyTorch密码Yoep)](https://pan.iflytek.com:443/link/A094EB0A73B1E7209FEBC6C5CF7AEF27)** |
| **`RoBERTa-wwm-ext-large, Chinese`** | **中文维基+<br/>通用数据<sup>[1]</sup>** | **[TensorFlow](https://drive.google.com/open?id=1dtad0FFzG11CBsawu8hvwwzU2R0FDI94)**<br/>**[PyTorch](https://drive.google.com/open?id=1-2vEZfIFCdM1-vJ3GD6DlSyKT4eVXMKq)** | **[TensorFlow密码u6gC)](https://pan.iflytek.com:443/link/AC056611607108F33A744A0F56D0F6BE)**<br/>**[PyTorch密码43eH)](https://pan.iflytek.com:443/link/9B46A0ABA70C568AAAFCD004B9A2C773)** |
| **`RoBERTa-wwm-ext, Chinese`** | **中文维基+<br/>通用数据<sup>[1]</sup>** | **[TensorFlow](https://drive.google.com/open?id=1jMAKIJmPn7kADgD3yQZhpsqM-IRM1qZt)** <br/>**[PyTorch](https://drive.google.com/open?id=1eHM3l4fMo6DsQYGmey7UZGiTmQquHw25)** | **[TensorFlow密码Xe1p)](https://pan.iflytek.com:443/link/98D11FAAF0F0DBCB094EE19CCDBC98BF)** <br/>**[PyTorch密码waV5)](https://pan.iflytek.com:443/link/92ADD2C34C91F3B44E0EC97F101F89D8)**|
| **`BERT-wwm-ext, Chinese`** | **中文维基+<br/>通用数据<sup>[1]</sup>** | **[TensorFlow](https://drive.google.com/open?id=1buMLEjdtrXE2c4G1rpsNGWEx7lUQ0RHi)** <br/>**[PyTorch](https://drive.google.com/open?id=1iNeYFhCBJWeUsIlnW_2K6SMwXkM4gLb_)** | **[TensorFlow密码4cMG)](https://pan.iflytek.com:443/link/653637473FFF242C3869D77026C9BDB5)** <br/>**[PyTorch密码XHu4)](https://pan.iflytek.com:443/link/B9ACE1C9F228A0F42242672EF6CE1721)** |
Expand All @@ -98,6 +102,7 @@ chinese_wwm_L-12_H-768_A-12.zip
其中`bert_config.json`和`vocab.txt`与谷歌原版`BERT-base, Chinese`完全一致
PyTorch版本则包含`pytorch_model.bin`, `bert_config.json`, `vocab.txt`文件


### 快速加载
依托于[Huggingface-Transformers 2.2.2](https://github.com/huggingface/transformers),可轻松调用以上模型
```
Expand All @@ -114,6 +119,9 @@ model = BertModel.from_pretrained("MODEL_NAME")
| RoBERTa-wwm-ext | hfl/chinese-roberta-wwm-ext |
| BERT-wwm-ext | hfl/chinese-bert-wwm-ext |
| BERT-wwm | hfl/chinese-bert-wwm |
| RBT3 | hfl/rbt3 |
| RBTL3 | hfl/rbtl3 |


### 测试任务数据
我们提供部分任务数据请查看`data`目录了解
Expand Down Expand Up @@ -298,6 +306,33 @@ model = BertModel.from_pretrained("MODEL_NAME")
| **RoBERTa-wwm-ext-large** | 98.3 (97.7) | 97.8 (97.6) |


### 小参数量模型
以下是在若干NLP任务上的实验效果表中只提供测试集结果对比

| 模型 | CMRC 2018 | DRCD | XNLI | CSC | LCQMC | BQ | 平均 | 参数量 |
| :------- | :---------: | :---------: | :---------: | :---------: | :---------: | :---------: | :---------: | :---------: |
| RoBERTa-wwm-ext-large | 74.2 / 90.6 | 89.6 / 94.5 | 81.2 | 95.8 | 87.0 | 85.8 | 87.335 | 325M |
| RoBERTa-wwm-ext | 72.6 / 89.4 | 85.6 / 92.0 | 78.8 | 95.6 | 86.4 | 85.0 | 85.675 | 102M |
| RBTL3 | 63.3 / 83.4 | 77.2 / 85.6 | 74.0 | 94.2 | 85.1 | 83.6 | 80.800 | 61M (59.8%) |
| RBT3 | 62.2 / 81.8 | 75.0 / 83.9 | 72.3 | 92.8 | 85.1 | 83.3 | 79.550 | 38M (37.3%) |

效果相对值比较

| 模型 | CMRC 2018 | DRCD | XNLI | CSC | LCQMC | BQ | 平均 | 分类平均 |
| :------- | :---------: | :---------: | :---------: | :---------: | :---------: | :---------: | :---------: | :---------: |
| RoBERTa-wwm-ext-large | 102.2% / 101.3% | 104.7% / 102.7% | 103.0% | 100.2% | 100.7% | 100.9% | 101.9% | 101.2% |
| RoBERTa-wwm-ext | 100% / 100% | 100% / 100% | 100% | 100% | 100% | 100% | 100% | 100% |
| RBTL3 | 87.2% / 93.3% | 90.2% / 93.0% | 93.9% | 98.5% | 98.5% | 98.4% | 94.3% | 97.35% |
| RBT3 | 85.7% / 91.5% | 87.6% / 91.2% | 91.8% | 97.1% | 98.5% | 98.0% | 92.9% | 96.35% |

- 参数量是以XNLI分类任务为基准进行计算
- 括号内参数量百分比以原始base模型即RoBERTa-wwm-ext为基准
- RBT3由RoBERTa-wwm-ext 3层进行初始化继续训练了1M步
- RBTL3由RoBERTa-wwm-ext-large 3层进行初始化继续训练了1M步
- RBT的名字是RoBERTa三个音节首字母组成L代表large模型
- 直接使用RoBERTa-wwm-ext-large前三层进行初始化并进行下游任务的训练将显著降低效果例如在CMRC 2018上测试集仅能达到42.9/65.3而RBTL3能达到63.3 / 83.4


## 使用建议
* 初始学习率是非常重要的一个参数不论是`BERT`还是其他模型),需要根据目标任务进行调整
* `ERNIE`的最佳学习率和`BERT`/`BERT-wwm`相差较大所以使用`ERNIE`时请务必调整学习率基于以上实验结果`ERNIE`需要的初始学习率较高)。
Expand Down

0 comments on commit b8f37de

Please sign in to comment.