Skip to content

Commit

Permalink
内容修改 v1.0
Browse files Browse the repository at this point in the history
  • Loading branch information
km1994 committed May 26, 2021
1 parent 888b274 commit 9a97866
Show file tree
Hide file tree
Showing 20 changed files with 18 additions and 18 deletions.
2 changes: 1 addition & 1 deletion NLPinterview/DialogueSystem/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -23,7 +23,7 @@
- 类别:
- 基于 海量 FAQ 的检索方式
- 端到端方式

### 1.2 这几种对话系统的区别?

- 区别:是否有明确的目标和任务
Expand Down
2 changes: 1 addition & 1 deletion NLPinterview/KG/KBQA/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -9,7 +9,7 @@
![](img/微信截图_20210204081440.png)

## 一、基于词典和规则的方法

### 1.1 介绍

#### 1.1.1 开源知识图谱
Expand Down
2 changes: 1 addition & 1 deletion NLPinterview/KG/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -6,7 +6,7 @@
>
![](img/微信截图_20210129233513.png)

## 一、知识图谱简介

### 1.1 引言
Expand Down
2 changes: 1 addition & 1 deletion NLPinterview/PreTraining/bert/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -20,7 +20,7 @@
- 维度鸿沟问题:词语的编码往往是随机的,导致不能很好地刻画词与词之间的相似性。

### 1.2【演变史】wordvec 存在问题?

- 多义词问题
- 因为 word2vec 为静态方式,即训练好后,每个词表达固定;

Expand Down
2 changes: 1 addition & 1 deletion NLPinterview/PreTraining/bert_big/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -17,7 +17,7 @@
## 二、Bert 变大篇

### 2.1 认识 XLNet 么?能不能讲一下? 和 Bert 的 区别在哪里?

- AR vs AE
- AR:只利用到单向 context 的信息(前向或后向);
- AE(这里特指 BERT):Pre-training 阶段引入的 [MASK] 占位符在 Fine-tuning 阶段并不存在;同一个 sequence 如果有多个位置 [MASK],BERT 假定它们之间是独立的,这与事实不符
Expand Down
2 changes: 1 addition & 1 deletion NLPinterview/PreTraining/bert_zip/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -19,7 +19,7 @@
- 限制了 Bert 系列模型在移动和物联网等嵌入式设备上的部署;

## 二、Bert 模型压缩对比表

<table>
<tr>
<td>论文</td>
Expand Down
2 changes: 1 addition & 1 deletion NLPinterview/PreTraining/fasttext/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -17,7 +17,7 @@
- 介绍:基于word单词作为基本单位的,这种方式虽然能够很好的对词库中每一个词进行向量表示

### 1.2 word-level Model 存在什么问题?

- OOV 问题
- 问题描述:容易出现单词不存在于词汇库中的情况;
- 解决方法:最佳语料规模,使系统能够获得更多的词汇量;
Expand Down
2 changes: 1 addition & 1 deletion NLPinterview/PreTraining/tfidf/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -24,7 +24,7 @@

- 维度长:向量的维度为 **词典大小**
- 一一其零:每个向量**只有一个维度为1**,其余维度全部为0,**为1的位置表示该词语在词典的位置**

### 1.4 one-hot 存在哪些问题?

- 维度灾难:容易受维数灾难的困扰,每个词语的维度就是语料库字典的长度;
Expand Down
2 changes: 1 addition & 1 deletion NLPinterview/PreTraining/word2vec/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -19,7 +19,7 @@
- CBOW vs Skip-gram

### 1.2 Wordvec 中 CBOW 指什么?

- CBOW
- 思想:用周围词预测中心词
- 输入输出介绍:输入是某一个特征词的上下文相关的词对应的词向量,而输出就是这特定的一个词的词向量
Expand Down
2 changes: 1 addition & 1 deletion NLPinterview/QA/FAQ/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -22,7 +22,7 @@
- 如何根据 这个 query,你怎么返回一个标准答案呢?
- 如何从 问题库 里面找 答案?
- 如何 判断 你 找到 答案 是 对的?

### 1.2 问答系统 是什么?

- 介绍:问答系统是信息检索的一种高级形式,能够更加准确地理解用户用自然语言提出的问题,并通过检索语料库、知识图谱或问答知识库返回简洁、准确的匹配答案。相较于搜索引擎,问答系统能更好地理解用户提问的真实意图, 进一步能更有效地满足用户的信息需求。
Expand Down
Empty file added NLPinterview/QA/readme.md
Empty file.
2 changes: 1 addition & 1 deletion NLPinterview/TextMatch/bert_similairity/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -24,7 +24,7 @@
- 解析:c 可一定程度表示整个句子的语义
- 举例
- 原文中有提到“ The final hidden state (i.e., output of Transformer) corresponding to this token is used as the aggregate sequence representation for classification tasks.”这句话中的“this token”就是CLS位。

## 二、cosine similairity

- 方法:
Expand Down
Empty file.
2 changes: 1 addition & 1 deletion NLPinterview/ner/ChineseNer/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -11,7 +11,7 @@
![](img/微信截图_20210206163209.png)

## 一、动机篇

### 1.1 中文命名实体识别 与 英文命名实体识别的区别?

和英文 NER 每个单词都使用空格分隔不同,中文 NER 是基于字的表示方法,所以一般会涉及到中文分词和中文NER技术,导致 中文 NER 技术容易受到中文分词的误差的影响。
Expand Down
2 changes: 1 addition & 1 deletion NLPinterview/ner/NERtrick/NERtrick.md
Original file line number Diff line number Diff line change
Expand Up @@ -9,7 +9,7 @@
> 【注:手机阅读可能图片打不开!!!】
![](img/微信截图_20210224224353.png)

## trick 1:领域词典匹配

- 场景:对于某些 常见短语,可以 采用 词典匹配 的方式。
Expand Down
2 changes: 1 addition & 1 deletion NLPinterview/ner/crf/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -17,7 +17,7 @@
### 1.1 什么是概率图模型?

概率图模型(Probabilistic Graphical Model, PGM),简称图模型(Graphical Model,GM),是指一种用图结构来描述**多元随机变量之间条件独立性的概率模型(注意条件独立性)**,从而给研究高维空间的概率模型带来了很大的便捷性。

### 1.2 什么是 随机场?

每个位置按照某种分布随机赋予一个值 所构成 的 整体。
Expand Down
2 changes: 1 addition & 1 deletion NLPinterview/ner/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -12,7 +12,7 @@





## 参考资料
Expand Down
2 changes: 1 addition & 1 deletion NLPinterview/textclassifier/ClassifierTrick/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -23,7 +23,7 @@
5. 词干化 加入训练数据会收到比较好的效果;
6. 主题向量 加入训练数据会收到比较好的效果;
7. 位置向量 加入训练数据会收到比较好的效果;【位置向量则是将当前词汇的位置进行embedding,然后和词向量进行拼接】

### 1.3 噪声数据处理问题

- 噪声类型:【数据集D(X, Y)】
Expand Down
2 changes: 1 addition & 1 deletion Trick/SmallSampleProblem/EDA/eda.md
Original file line number Diff line number Diff line change
Expand Up @@ -27,7 +27,7 @@
## 二、常见的数据增强方法篇

### 2.1 词汇替换篇

#### 2.1.1 什么是基于词典的替换方法?

- 介绍:基于同义词替换的方法是从句子中以一定的概率随机选取一个单词,利用一些同义词数据库(注:英文可以用 WordNet 数据库,中文可以用 synonyms python 同义词词典) 将其替换成对应的同义词。
Expand Down
2 changes: 1 addition & 1 deletion python/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -5,7 +5,7 @@
> 项目地址:https://github.com/km1994/nlp_paper_study
>
> 个人介绍:大佬们好,我叫杨夕,该项目主要是本人在研读顶会论文和复现经典论文过程中,所见、所思、所想、所闻,可能存在一些理解错误,希望大佬们多多指正。
- [【关于 python 】 的那些你不知道的事](#关于-python--的那些你不知道的事)
- [一、什么是*args 和 **kwargs?](#一什么是args-和-kwargs)
- [1.1 为什么会有 *args 和 **kwargs?](#11-为什么会有-args-和-kwargs)
Expand Down

0 comments on commit 9a97866

Please sign in to comment.