内容修改 v1.0

zzsama · May 26, 2021 · 9a97866 · 9a97866
1 parent 888b274
commit 9a97866
Show file tree

Hide file tree

Showing 20 changed files with 18 additions and 18 deletions.
diff --git a/NLPinterview/DialogueSystem/readme.md b/NLPinterview/DialogueSystem/readme.md
@@ -23,7 +23,7 @@
     - 类别：
       - 基于 海量 FAQ 的检索方式
       - 端到端方式
-
+ 
 ### 1.2 这几种对话系统的区别？
 
 - 区别：是否有明确的目标和任务

diff --git a/NLPinterview/KG/KBQA/readme.md b/NLPinterview/KG/KBQA/readme.md
@@ -9,7 +9,7 @@
 ![](img/微信截图_20210204081440.png)
 
 ## 一、基于词典和规则的方法
-
+ 
 ### 1.1 介绍
 
 #### 1.1.1 开源知识图谱

diff --git a/NLPinterview/KG/readme.md b/NLPinterview/KG/readme.md
@@ -6,7 +6,7 @@
 > 
 
 ![](img/微信截图_20210129233513.png)
-
+ 
 ## 一、知识图谱简介
 
 ### 1.1 引言

diff --git a/NLPinterview/PreTraining/bert/readme.md b/NLPinterview/PreTraining/bert/readme.md
@@ -20,7 +20,7 @@
   - 维度鸿沟问题：词语的编码往往是随机的，导致不能很好地刻画词与词之间的相似性。
 
 ### 1.2【演变史】wordvec 存在问题?
-
+ 
 - 多义词问题
   - 因为 word2vec 为静态方式，即训练好后，每个词表达固定；
 

diff --git a/NLPinterview/PreTraining/bert_big/readme.md b/NLPinterview/PreTraining/bert_big/readme.md
@@ -17,7 +17,7 @@
 ## 二、Bert 变大篇
 
 ### 2.1 认识 XLNet 么？能不能讲一下？ 和 Bert 的 区别在哪里？
-
+ 
 - AR vs AE
   - AR：只利用到单向 context 的信息（前向或后向）；
   - AE（这里特指 BERT）：Pre-training 阶段引入的 [MASK] 占位符在 Fine-tuning 阶段并不存在；同一个 sequence 如果有多个位置 [MASK]，BERT 假定它们之间是独立的，这与事实不符

diff --git a/NLPinterview/PreTraining/bert_zip/readme.md b/NLPinterview/PreTraining/bert_zip/readme.md
@@ -19,7 +19,7 @@
   - 限制了 Bert 系列模型在移动和物联网等嵌入式设备上的部署；
 
 ## 二、Bert 模型压缩对比表
-
+ 
 <table>
     <tr>
         <td>论文</td>

diff --git a/NLPinterview/PreTraining/fasttext/readme.md b/NLPinterview/PreTraining/fasttext/readme.md
@@ -17,7 +17,7 @@
 - 介绍：基于word单词作为基本单位的，这种方式虽然能够很好的对词库中每一个词进行向量表示
 
 ### 1.2 word-level Model 存在什么问题？
-
+ 
 - OOV 问题
   - 问题描述：容易出现单词不存在于词汇库中的情况；
   - 解决方法：最佳语料规模，使系统能够获得更多的词汇量；

diff --git a/NLPinterview/PreTraining/tfidf/readme.md b/NLPinterview/PreTraining/tfidf/readme.md
@@ -24,7 +24,7 @@
 
 - 维度长：向量的维度为 **词典大小**；
 - 一一其零：每个向量**只有一个维度为1**，其余维度全部为0，**为1的位置表示该词语在词典的位置**；
-
+ 
 ### 1.4 one-hot 存在哪些问题?
 
 - 维度灾难：容易受维数灾难的困扰，每个词语的维度就是语料库字典的长度；

diff --git a/NLPinterview/PreTraining/word2vec/readme.md b/NLPinterview/PreTraining/word2vec/readme.md
@@ -19,7 +19,7 @@
   - CBOW vs Skip-gram
 
 ### 1.2 Wordvec 中 CBOW 指什么?
-
+ 
 - CBOW
   - 思想：用周围词预测中心词
   - 输入输出介绍：输入是某一个特征词的上下文相关的词对应的词向量，而输出就是这特定的一个词的词向量

diff --git a/NLPinterview/QA/FAQ/readme.md b/NLPinterview/QA/FAQ/readme.md
@@ -22,7 +22,7 @@
   - 如何根据 这个 query，你怎么返回一个标准答案呢？
   - 如何从 问题库 里面找 答案？
   - 如何 判断 你 找到 答案 是 对的？
-
+ 
 ### 1.2 问答系统 是什么？
 
 - 介绍：问答系统是信息检索的一种高级形式，能够更加准确地理解用户用自然语言提出的问题，并通过检索语料库、知识图谱或问答知识库返回简洁、准确的匹配答案。相较于搜索引擎，问答系统能更好地理解用户提问的真实意图, 进一步能更有效地满足用户的信息需求。

diff --git a/NLPinterview/QA/readme.md b/NLPinterview/QA/readme.md
diff --git a/NLPinterview/TextMatch/bert_similairity/readme.md b/NLPinterview/TextMatch/bert_similairity/readme.md
@@ -24,7 +24,7 @@
 - 解析：c 可一定程度表示整个句子的语义
 - 举例
   - 原文中有提到“ The final hidden state (i.e., output of Transformer) corresponding to this token is used as the aggregate sequence representation for classification tasks.”这句话中的“this token”就是CLS位。
-
+ 
 ## 二、cosine similairity
 
 - 方法：

diff --git a/NLPinterview/TextMatch/readme.md b/NLPinterview/TextMatch/readme.md
diff --git a/NLPinterview/ner/ChineseNer/readme.md b/NLPinterview/ner/ChineseNer/readme.md
@@ -11,7 +11,7 @@
 ![](img/微信截图_20210206163209.png)
 
 ## 一、动机篇
-
+ 
 ### 1.1 中文命名实体识别 与 英文命名实体识别的区别？
 
 和英文 NER 每个单词都使用空格分隔不同，中文 NER 是基于字的表示方法，所以一般会涉及到中文分词和中文NER技术，导致 中文 NER 技术容易受到中文分词的误差的影响。

diff --git a/NLPinterview/ner/NERtrick/NERtrick.md b/NLPinterview/ner/NERtrick/NERtrick.md
@@ -9,7 +9,7 @@
 > 【注：手机阅读可能图片打不开！！！】
 
 ![](img/微信截图_20210224224353.png)
-
+ 
 ## trick 1：领域词典匹配
 
 - 场景：对于某些 常见短语，可以 采用 词典匹配 的方式。

diff --git a/NLPinterview/ner/crf/readme.md b/NLPinterview/ner/crf/readme.md
@@ -17,7 +17,7 @@
 ### 1.1 什么是概率图模型？
 
 概率图模型（Probabilistic Graphical Model， PGM），简称图模型（Graphical Model，GM），是指一种用图结构来描述**多元随机变量之间条件独立性的概率模型（注意条件独立性）**，从而给研究高维空间的概率模型带来了很大的便捷性。
-
+ 
 ### 1.2 什么是 随机场？
 
 每个位置按照某种分布随机赋予一个值 所构成 的 整体。

diff --git a/NLPinterview/ner/readme.md b/NLPinterview/ner/readme.md
@@ -12,7 +12,7 @@
 
 
 
-
+ 
 
 
 ## 参考资料

diff --git a/NLPinterview/textclassifier/ClassifierTrick/readme.md b/NLPinterview/textclassifier/ClassifierTrick/readme.md
@@ -23,7 +23,7 @@
 5. 词干化 加入训练数据会收到比较好的效果；
 6. 主题向量 加入训练数据会收到比较好的效果；
 7. 位置向量 加入训练数据会收到比较好的效果；【位置向量则是将当前词汇的位置进行embedding，然后和词向量进行拼接】
-
+ 
 ### 1.3 噪声数据处理问题
 
 - 噪声类型：【数据集D(X, Y)】

diff --git a/Trick/SmallSampleProblem/EDA/eda.md b/Trick/SmallSampleProblem/EDA/eda.md
@@ -27,7 +27,7 @@
 ## 二、常见的数据增强方法篇
 
 ### 2.1 词汇替换篇
-
+ 
 #### 2.1.1 什么是基于词典的替换方法？
 
 - 介绍：基于同义词替换的方法是从句子中以一定的概率随机选取一个单词，利用一些同义词数据库（注：英文可以用 WordNet 数据库，中文可以用 synonyms python 同义词词典） 将其替换成对应的同义词。

diff --git a/python/readme.md b/python/readme.md
@@ -5,7 +5,7 @@
 > 项目地址：https://github.com/km1994/nlp_paper_study
 > 
 > 个人介绍：大佬们好，我叫杨夕，该项目主要是本人在研读顶会论文和复现经典论文过程中，所见、所思、所想、所闻，可能存在一些理解错误，希望大佬们多多指正。
-
+ 
 - [【关于 python 】 的那些你不知道的事](#关于-python--的那些你不知道的事)
   - [一、什么是*args 和 **kwargs？](#一什么是args-和-kwargs)
     - [1.1 为什么会有 *args 和 **kwargs？](#11-为什么会有-args-和-kwargs)
-Original file line number
+Diff line change
@@ Expand Up / @@ -6,7 +6,7 @@ @@
     >
     ![](img/微信截图_20210129233513.png)
     ## 一、知识图谱简介
     ### 1.1 引言
@@ Expand Down @@