【关于 NLP】那些你不知道的事

作者：杨夕

项目地址：https://github.com/km1994/nlp_paper_study

个人介绍：大佬们好，我叫杨夕，该项目主要是本人在研读顶会论文和复现经典论文过程中，所见、所思、所想、所闻，可能存在一些理解错误，希望大佬们多多指正。

介绍

论文工具篇

问题
- 作为一名 scholar，你是否和我一样，在刚入门 NLP 时，对于陌生领域有种无从下手，心存畏惧？
- 作为一名 scholar，你是否还在发愁如何找好的论文？
- 作为一名 scholar，你是否还在为自己的英文阅读能力跟不上很烦恼？
- 作为一名 scholar，你是否还在为看到一篇好paper，但是复现不出 code 而心累？
- 作为一名 scholar，你是否还在为有Good idea，Outstanding Experimental results，Beautiful Chinese manuscript，结果 Bad English manuscript, Poor Journal 而奔溃？
- 作为一名 scholar，你是否在为搞科研没人交流而自闭？
当你看到这一篇文档，你将不在为这些问题而烦恼，因为我们为你准备了一整套免费的从论文查找->论文翻译->论文理解->相关代码搜索->写英文稿->科研学术交流的路径。

会议收集篇

NLP 学习篇

经典会议论文研读篇

ACL2020
- 【关于 CHECKLIST】那些你不知道的事
  - 阅读理由：ACL2020 best paper ，利用软件工程的思想思考深度学习
  - 动机：针对 train-val-test 分割方法评估模型性能容易出现不全面、偏向性、可解性差问题；
  - 方法：提出了一种模型无关和任务无关的测试方法checklist，它使用三种不同的测试类型来测试模型的独立性。
  - 效果：checklist揭示了大型软件公司开发的商业系统中的关键缺陷，表明它是对当前实践的补充好吧。测试使用 checklist 创建的模型可以应用于任何模型，这样就可以很容易地将其纳入当前的基准测试或评估中管道。

理论学习篇

经典论文研读篇

那些你所不知道的事
- 【关于Transformer】那些的你不知道的事
- 【关于Bert】那些的你不知道的事

transformer 学习篇

transformer_study transformer 论文学习
- 【关于Transformer】那些的你不知道的事
- Transformer-XL
- Single Headed Attention RNN: Stop Thinking With Your Head 单头注意力 RNN: 停止用你的头脑思考
- Universal Transformers
- Style_Transformer
- ACL2020_Linformer
- 【关于 Performer 】那些你不知道的事 【推荐阅读】
  - 阅读理由：Transformer 作者 Krzysztof Choromanski 针对 Transformer 问题的重新思考与改进
  - 动机：Transformer 有着巨大的内存和算力需求，因为它构造了一个注意力矩阵，需求与输入呈平方关系;
  - 思路：使用一个高效的（线性）广义注意力框架（generalized attention framework），允许基于不同相似性度量（核）的一类广泛的注意力机制。
  - 优点：该方法在保持线性空间和时间复杂度的同时准确率也很有保证，也可以应用到独立的 softmax 运算。此外，该方法还可以和可逆层等其他技术进行互操作。

预训练模型篇

Bert_study：Bert论文研读
- 【关于Bert】那些的你不知道的事
  - 阅读理由：NLP 的创世之作
  - 动机：word2vec 的多义词问题 && GPT 单向 Transformer && Elmo 双向LSTM
  - 介绍：Transformer的双向编码器
  - 思路：
    - 预训练：Task 1：Masked LM && Task 2：Next Sentence Prediction
    - 微调：直接利用特定任务数据微调
  - 优点：NLP 所有任务上都刷了一遍 SOTA
  - 缺点：
    - [MASK]预训练和微调之间的不匹配
    - Max Len 为 512
- 【关于 XLNet 】那些你不知道的事
  - 阅读理由：Bert 问题上的改进
  - 动机：
    - Bert 预训练和微调之间的不匹配
    - Bert 的 Max Len 为 512
  - 介绍：广义自回归预训练方法
  - 思路：
    - 预训练：
      - Permutation Language Modeling【解决Bert 预训练和微调之间的不匹配】
      - Two-Stream Self-Attention for Target-Aware Representations【解决PLM出现的目标预测歧义】
      - XLNet将最先进的自回归模型Transformer-XL的思想整合到预训练中【解决 Bert 的 Max Len 为 512】
    - 微调：直接利用特定任务数据微调
  - 优点：
  - 缺点：
- 【关于 RoBERTa】那些你不知道的事
  - 阅读理由：Bert 问题上的改进
  - 动机：
    - 确定方法的哪些方面贡献最大可能是具有挑战性的
    - 训练在计算上是昂贵的的，限制了可能完成的调整量
  - 介绍：A Robustly Optimized BERT Pretraining Approach
  - 思路：
    - 预训练：
      - 去掉下一句预测(NSP)任务
      - 动态掩码
      - 文本编码
    - 微调：直接利用特定任务数据微调
  - 优点：
  - 缺点：
- 【关于 ELECTRA 】那些的你不知道的事
  - 阅读理由：Bert 问题上的改进【不推荐阅读，存在注水！】
  - 动机：
    - 只有15%的输入上是会有loss
  - 介绍：判别器 & 生成器【但是最后发现非判别器 & 生成器】
  - 思路：
    - 预训练：
      - 利用一个基于MLM的Generator来替换example中的某些个token，然后丢给Discriminator来判别
    - 微调：直接利用特定任务数据微调
  - 优点：
  - 缺点：
- 【关于 Perturbed Masking: Parameter-free Probing for Analyzing and Interpreting BERT】那些你不知道的事
- 【关于 GRAPH-BERT】那些你不知道的事)
- 【关于自训练 + 预训练 = 更好的自然语言理解模型】那些的你不知道的事)
【关于 Bert 模型压缩】那些你不知道的事
- 【关于 Bert 模型压缩】那些你不知道的事
  - 阅读理由：Bert 在工程上问题上的改进
  - 动机：
    - 内存占用；
    - 功耗过高；
    - 带来很高的延迟；
    - 限制了 Bert 系列模型在移动和物联网等嵌入式设备上的部署；
  - 介绍：BERT 瘦身来提升速度
  - 模型压缩思路：
    - 低秩因式分解：在输入层和输出层使用嵌入大小远小于原生Bert的嵌入大小，再使用简单的映射矩阵使得输入层的输出或者最后一层隐藏层的输出可以通过映射矩阵输入到第一层的隐藏层或者输出层；
    - 跨层参数共享：隐藏层中的每一层都使用相同的参数，用多种方式共享参数，例如只共享每层的前馈网络参数或者只共享每层的注意力子层参数。默认情况是共享每层的所有参数；
    - 剪枝：剪掉多余的连接、多余的注意力头、甚至LayerDrop[1]直接砍掉一半Transformer层
    - 量化：把FP32改成FP16或者INT8；
    - 蒸馏：用一个学生模型来学习大模型的知识，不仅要学logits，还要学attention score；
  - 优点：BERT 瘦身来提升速度
  - 缺点：
    - 精度的下降
    - 低秩因式分解 and 跨层参数共享计算量并没有下降；
    - 剪枝会直接降低模型的拟合能力；
    - 量化虽然有提升但也有瓶颈；
    - 蒸馏的不确定性最大，很难预知你的BERT教出来怎样的学生；
- 【关于 AlBert 】那些你不知道的事
  - 模型压缩方法：低秩因式分解 + 跨层参数共享
  - 模型压缩方法介绍：
    - 低秩因式分解：
      - 动机：Bert的参数量大部分集中于模型的隐藏层架构上，在嵌入层中只有30,000词块，其所占据的参数量只占据整个模型参数量的小部分；
      - 方法：将输入层和输出层的权重矩阵分解为两个更小的参数矩阵；
      - 思路：在输入层和输出层使用嵌入大小远小于原生Bert的嵌入大小，再使用简单的映射矩阵使得输入层的输出或者最后一层隐藏层的输出可以通过映射矩阵输入到第一层的隐藏层或者输出层；
      - 优点：在不显著增加词嵌入大小的情况下能够更容易增加隐藏层大小；
    - 参数共享【跨层参数共享】：
      - 动机：隐藏层参数大小一致；
      - 方法：隐藏层中的每一层都使用相同的参数，用多种方式共享参数，例如只共享每层的前馈网络参数或者只共享每层的注意力子层参数。默认情况是共享每层的所有参数；
      - 优点：防止参数随着网络深度的增加而增大；
  - 其他改进策略：
    - 句子顺序预测损失(SOP)代替Bert中的下一句预测损失(NSP)：
      - 动机：通过实验证明，Bert中的下一句预测损失(NSP) 作用不大；
      - 介绍：用预测两个句子是否连续出现在原文中替换为两个连续的句子是正序或是逆序，用于进一步提高下游任务的表现
  - 优点：参数量上有所降低；
  - 缺点：其加速指标仅展示了训练过程，由于ALBERT的隐藏层架构采用跨层参数共享策略并未减少训练过程的计算量，加速效果更多来源于低维的嵌入层；
- 【关于 FastBERT】那些你不知道的事
  - 模型压缩方法：知识蒸馏
  - 模型压缩方法介绍：
    - 样本自适应机制（Sample-wise adaptive mechanism）
      - 思路：
        
        在每层Transformer后都去预测样本标签，如果某样本预测结果的置信度很高，就不用继续计算了，就是自适应调整每个样本的计算量，容易的样本通过一两层就可以预测出来，较难的样本则需要走完全程。
      - 操作：
        
        给每层后面接一个分类器，毕竟分类器比Transformer需要的成本小多了
    - 自蒸馏（Self-distillation）
      - 思路：
        
        在预训练和精调阶段都只更新主干参数；
        
        精调完后freeze主干参数，用分支分类器（图中的student）蒸馏主干分类器（图中的teacher）的概率分布
      - 优点：
        
        非蒸馏的结果没有蒸馏要好
        
        不再依赖于标注数据。蒸馏的效果可以通过源源不断的无标签数据来提升
- 【关于 distilbert】那些你不知道的事
- 【关于 TinyBert】那些你不知道的事
  - 模型压缩方法：知识蒸馏
  - tinybert的创新点：学习了teacher Bert中更多的层数的特征表示；
  - 模型压缩方法介绍：
    - 基于transformer的知识蒸馏模型压缩
      - 学习了teacher Bert中更多的层数的特征表示；
      - 特征表示：
        
        词向量层的输出；
        
        Transformer layer的输出以及注意力矩阵；
        
        预测层输出(仅在微调阶段使用)；
    - bert知识蒸馏的过程
      - 左图：整体概括了知识蒸馏的过程
        
        左边：Teacher BERT；
        
        右边：Student TinyBERT
        
        目标：将Teacher BERT学习到的知识迁移到TinyBERT中
      - 右图：描述了知识迁移的细节；
        
        在训练过程中选用Teacher BERT中每一层transformer layer的attention矩阵和输出作为监督信息

细粒度情感分析论文研读

LCF: A Local Context Focus Mechanism for Aspect-Based Sentiment Classiﬁcation

主动学习论文研读

Proactive Learning for Named Entity Recognition（命名实体识别的主动学习）

对抗训练论文研读

FreeLB: Enhanced Adversarial Training for Language Understanding 加强语言理解的对抗性训练

实体关系联合抽取论文研读：

GCN 在 NLP 上的应用论文研读：

GCN 在 NLP 上的应用论文研读

命名实体识别论文研读：

关系抽取论文研读：

文本预处理

过采样

问答系统论文学习

文本摘要论文学习

文本匹配论文学习

机器翻译论文学习

Neural Machine Translation of Rare Words with Subword Units 论文学习

文本生成论文学习

【关于 SLCVAE 安装】那些你不知道的事

对话系统论文学习

rasa 学习

GCN_study学习篇

ML 小白入门篇

Java 实战篇

百度百科 ES 全文检索平台构建实战篇

项目目标
- 实现一个基于百度百科的 ES 全文检索平台
项目流程
- step 1: 编写网络爬虫爬取百度百科数据；
- step 2: 爬取数据之后，需要进行预处理操作，清洗掉文本中噪声数据；
- step 3: 将输入导入 ES ；
- step 4: 利用 python 编写后台，并对 ES 进行查询，返回接口数据；
- step 5: ES 数据前端展示；
- step 6: 百度百科知识图谱构建
- step 7：百度百科知识图谱检索与展示
数据介绍：
- 本项目通过编写爬虫爬取百度百科数据，总共爬取名称、链接、简介、中文名、外文名、国籍、出生地、出生日期、职业、类型、中文名称、代表作品、民族、主要成就、别名、毕业院校、导演、制片地区、主演、编剧、上映时间等400多个指标，共爬取数据 98000 条。
数据预处理模块

爬取的数据根据名称可以分为人物、地点、书籍、作品、综艺节目等。

类别	指标量	数量	筛选方式
人物	109	27319	国籍、职业、出生日期、出生地有一个不为空
地点	124	9361	地理位置、所属地区有一个不为空
书籍	45	3336	作者不为空
作品	45	8850	主演为空，中文名称不为空
综艺节目	108	5600	主演、导演都不为空

面试篇

Leetcode 篇

DeepLearning-500-questions

大数据实战篇

Spark 实战篇

1、wordCount
- 内容：运行原理，RDD设计，DAG，安装与使用
- 第1章 Spark的设计与运行原理（大概了解）
  - 1.1 Spark简介
  - 1.2 Spark运行架构
  - 1.3 RDD的设计与运行原理
  - 1.4 Spark的部署模式
- 第2章 Spark的安装与使用（主要内容）
  - 2.1 Spark的安装和使用（如果想在window上安装，参考https://blog.csdn.net/SummerHmh/article/details/89518567，之后可以用pyspark或者jupyter上进行学习）（地址有问题，可以使用这个https://www-eu.apache.org/dist/spark/spark-2.4.3/）
  - 2.2 第一个Spark应用程序：WordCount
2、RDDStudy
- 内容：RDD编程，熟悉算子，读写文件
- 第3章 Spark编程基础
  - 3.1 Spark入门：RDD编程
  - 3.2 Spark入门：键值对RDD
  - 3.3 Spark入门：共享变量（提升-分布式必备）
  - 3.4 数据读写
    - 3.4.1 Spark入门：文件数据读写
3、sparkSQLStudy
- 内容：DataFrame,SparkSQL
- 第4章
  - 4.1 Spark SQL简介
  - 4.2 DataFrame与RDD的区别
  - 4.3 DataFrame的创建
  - 4.4 从RDD转换得到DataFrame
4、Parquet_JDBC_IO_Study
5、MLlibStudy
- 内容：MLlib流设计，特征工程
- 第6章 Spark MLlib
  - 6.1 Spark MLlib简介
  - 6.2 机器学习工作流
    - 6.2.1 机器学习工作流(ML Pipelines)
    - 6.2.2 构建一个机器学习工作流
  - 6.3 特征抽取、转化和选择
    - 6.3.1 特征抽取：TF-IDF
    - 6.3.4 特征变换：标签和索引的转化
    - 6.3.5 特征选取：卡方选择器

资源篇

funNLP

Name		Name	Last commit message	Last commit date
Latest commit History 102 Commits
ABSC_study		ABSC_study
ACL_study		ACL_study
Attention_study		Attention_study
DialogueSystem_study		DialogueSystem_study
ERE_study		ERE_study
GCN2NLP_study		GCN2NLP_study
ML_study		ML_study
MachineTranslation_study/NeuralMachineTranslationOfRareWordsWithSubwordUnits		MachineTranslation_study/NeuralMachineTranslationOfRareWordsWithSubwordUnits
NER_study		NER_study
NRE_paper_study		NRE_paper_study
QA_study		QA_study
RL_study		RL_study
ReadingComprehen_study/CognitiveGraphforMulti-HopReadingComprehensionatScale		ReadingComprehen_study/CognitiveGraphforMulti-HopReadingComprehensionatScale
RecommendedSystem_study		RecommendedSystem_study
SIGIR_stduy		SIGIR_stduy
TextGeneration		TextGeneration
active_learn_study		active_learn_study
adversarial_training_study		adversarial_training_study
bert_study		bert_study
classifier_study		classifier_study
error_process/conda_study		error_process/conda_study
es_study		es_study
game_study		game_study
git_study		git_study
interview		interview
pic		pic
pre_study/samplingStudy		pre_study/samplingStudy
study_message		study_message
summarization_study		summarization_study
textMining_study/ConcepT_study		textMining_study/ConcepT_study
text_match_study		text_match_study
topic_study		topic_study
transformer_study		transformer_study
论文学习idea		论文学习idea
.gitignore		.gitignore
README.md		README.md

cheesebeer/nlp_paper_study

Folders and files

Latest commit

History

Repository files navigation

【关于 NLP】 那些你不知道的事

目录

介绍

会议收集篇

NLP 学习篇

经典会议论文研读篇

理论学习篇

经典论文研读篇

transformer 学习篇

预训练模型篇

实体关系联合抽取论文研读：

GCN 在 NLP 上的应用 论文研读：

命名实体识别论文研读：

关系抽取论文研读：

视频学习篇

实战篇

Elastrsearch 学习篇

推荐系统 学习篇

竞赛篇

About

Resources

Stars

Watchers

Forks

Languages

【关于 NLP】那些你不知道的事

GCN 在 NLP 上的应用论文研读：

推荐系统学习篇