Skip to content

Commit

Permalink
修改
Browse files Browse the repository at this point in the history
  • Loading branch information
km1994 committed Feb 24, 2021
1 parent 1ac910e commit 20e2085
Show file tree
Hide file tree
Showing 15 changed files with 73 additions and 45 deletions.
74 changes: 38 additions & 36 deletions NLPinterview/KG/KBQA/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -47,47 +47,49 @@

#### 1.2.2. 问句解析

- 实体抽取:
- 作用:得到匹配的词和类型
- 方法:
- 模式匹配:
- 介绍:主要采用规则 提槽
- 工具:正则表达式
- 词典:
- 介绍:利用词典进行匹配
- 采用的词典匹配方法:trie和Aho-Corasick自动机,简称AC自动机
- 工具:ahocorasick、FlashText 等 python包
- 基于词向量的文本相似度计算:
- 介绍:计算 query 中 实体 与 实体库 中候选实体的相似度,通过设定阈值,得到最相似的 实体
- 工具:词向量工具(TF-idf、word2vec、Bert 等)、相似度计算方法(余弦相似度、L1、L2等)
- 命名实体识别方法:
- 利用 命名实体识别方法 识别 query 中实体
- 方法:BiLSTM-CRF等命名实体识别模型
- 举例说明:
1. 实体抽取:

- 作用:得到匹配的词和类型
- 方法:
- 模式匹配:
- 介绍:主要采用规则 提槽
- 工具:正则表达式
- 词典:
- 介绍:利用词典进行匹配
- 采用的词典匹配方法:trie和Aho-Corasick自动机,简称AC自动机
- 工具:ahocorasick、FlashText 等 python包
- 基于词向量的文本相似度计算:
- 介绍:计算 query 中 实体 与 实体库 中候选实体的相似度,通过设定阈值,得到最相似的 实体
- 工具:词向量工具(TF-idf、word2vec、Bert 等)、相似度计算方法(余弦相似度、L1、L2等)
- 命名实体识别方法:
- 利用 命名实体识别方法 识别 query 中实体
- 方法:BiLSTM-CRF等命名实体识别模型
- 举例说明:

```s
eg:通过解析 上面的 query ,获取里面的实体和实体类型:{'Disease': ['高血压'], 'Symptom': ['高血压'], 'Complication': ['高血压']}
```

- 属性和关系抽取:
- 作用:抽取 query 中 的 属性和关系
- 方法:
- 模式匹配:
- 介绍:主要采用规则匹配
- 工具:正则表达式
- 词典:
- 介绍:利用词典进行匹配
- 采用的词典匹配方法:trie和Aho-Corasick自动机,简称AC自动机
- 工具:ahocorasick、FlashText 等 python包
- 意图识别方法:
- 介绍:采用分类模型 对 query 所含关系 做预测
- 工具:
- 机器学习方法:LR、SVM、NB
- 深度学习方法:TextCNN、TextRNN、Bert 等
- 命名实体识别方法:【同样,可以采用命名实体识别挖掘出 query 中的某些动词和所属类型】
- 利用 命名实体识别方法 识别 query 中实体
- 方法:BiLSTM-CRF等命名实体识别模型
- 举例说明:
2. 属性和关系抽取:

- 作用:抽取 query 中 的 属性和关系
- 方法:
- 模式匹配:
- 介绍:主要采用规则匹配
- 工具:正则表达式
- 词典:
- 介绍:利用词典进行匹配
- 采用的词典匹配方法:trie和Aho-Corasick自动机,简称AC自动机
- 工具:ahocorasick、FlashText 等 python包
- 意图识别方法:
- 介绍:采用分类模型 对 query 所含关系 做预测
- 工具:
- 机器学习方法:LR、SVM、NB
- 深度学习方法:TextCNN、TextRNN、Bert 等
- 命名实体识别方法:【同样,可以采用命名实体识别挖掘出 query 中的某些动词和所属类型】
- 利用 命名实体识别方法 识别 query 中实体
- 方法:BiLSTM-CRF等命名实体识别模型
- 举例说明:

```s
- eg:通过解析 上面的 query ,获取里面的实体和实体类型:
Expand Down
2 changes: 2 additions & 0 deletions NLPinterview/KG/neo4j/readme.md
Original file line number Diff line number Diff line change
@@ -1,6 +1,8 @@
# 【关于 Neo4j 】 那些你不知道的事

> 作者:吴晓均
>
> 项目地址:https://github.com/km1994/NLP-Interview-Notes
![](img/微信截图_20210129232419.png)

Expand Down
3 changes: 1 addition & 2 deletions NLPinterview/KG/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,9 +2,8 @@

> 作者:吴晓均
>
> 项目地址:https://github.com/km1994/nlp_paper_study
> 项目地址:https://github.com/km1994/NLP-Interview-Notes
>
> 个人介绍:大佬们好,我叫杨夕,该项目主要是本人在研读顶会论文和复现经典论文过程中,所见、所思、所想、所闻,可能存在一些理解错误,希望大佬们多多指正。
![](img/微信截图_20210129233513.png)

Expand Down
4 changes: 2 additions & 2 deletions NLPinterview/PreTraining/bert/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -172,11 +172,11 @@ BERT(Bidirectional Encoder Representations from Transformers)是一种T**ran
> θ1:是 Mask-LM 任务中在 Encoder 上所接的输出层中的参数;<br/>
> θ2:是句子预测任务中在 Encoder 接上的分类器参数;<br/>
- 在第一部分的损失函数中,如果被 mask 的词集合为 M,因为它是一个词典大小 |V| 上的多分类问题,那么具体说来有:
- 在第一部分的损失函数中,如果被 mask 的词集合为 M,因为它是一个词典大小 |V| 上的多分类问题,所用的损失函数叫做负对数似然函数(且是最小化,等价于最大化对数似然函数),那么具体说来有:

![](img/20201130205229.png)

- 在第一部分的损失函数中,在句子预测任务中,也是一个分类问题的损失函数:
- 在第二部分的损失函数中,在句子预测任务中,也是一个分类问题的损失函数:

![](img/20201130205325.png)

Expand Down
4 changes: 4 additions & 0 deletions NLPinterview/PreTraining/elmo/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,6 +2,10 @@

> 作者:杨夕
>
> 项目地址:https://github.com/km1994/NLP-Interview-Notes
>
> 个人论文读书笔记:https://github.com/km1994/nlp_paper_study
>
> 【注:手机阅读可能图片打不开!!!】
![](img/Elmo.png)
Expand Down
4 changes: 4 additions & 0 deletions NLPinterview/PreTraining/fasttext/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,6 +2,10 @@

> 作者:杨夕
>
> 项目地址:https://github.com/km1994/NLP-Interview-Notes
>
> 个人论文读书笔记:https://github.com/km1994/nlp_paper_study
>
> 【注:手机阅读可能图片打不开!!!】
![](img/fastText.png)
Expand Down
4 changes: 4 additions & 0 deletions NLPinterview/PreTraining/tfidf/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,6 +2,10 @@

> 作者:杨夕
>
> 项目地址:https://github.com/km1994/NLP-Interview-Notes
>
> 个人论文读书笔记:https://github.com/km1994/nlp_paper_study
>
> 【注:手机阅读可能图片打不开!!!】
![](img/TF-idf.png)
Expand Down
4 changes: 4 additions & 0 deletions NLPinterview/PreTraining/word2vec/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,6 +2,10 @@

> 作者:杨夕
>
> 项目地址:https://github.com/km1994/NLP-Interview-Notes
>
> 个人论文读书笔记:https://github.com/km1994/nlp_paper_study
>
> 【注:手机阅读可能图片打不开!!!】
![](img/Word2vec.png)
Expand Down
4 changes: 3 additions & 1 deletion NLPinterview/QA/FAQ/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,7 +2,9 @@

> 作者:杨夕
>
> 本文链接:https://github.com/km1994/nlp_paper_study
> 项目地址:https://github.com/km1994/NLP-Interview-Notes
>
> 个人论文读书笔记:https://github.com/km1994/nlp_paper_study
>
> 个人介绍:大佬们好,我叫杨夕,该项目主要是本人在研读顶会论文和复现经典论文过程中,所见、所思、所想、所闻,可能存在一些理解错误,希望大佬们多多指正。
>
Expand Down
4 changes: 3 additions & 1 deletion NLPinterview/TextMatch/ESIM/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,7 +2,9 @@

> 作者:杨夕
>
> 项目地址:https://github.com/km1994/nlp_paper_study
> 项目地址:https://github.com/km1994/NLP-Interview-Notes
>
> 个人论文读书笔记:https://github.com/km1994/nlp_paper_study
>
> 个人介绍:大佬们好,我叫杨夕,该项目主要是本人在研读顶会论文和复现经典论文过程中,所见、所思、所想、所闻,可能存在一些理解错误,希望大佬们多多指正。
>
Expand Down
4 changes: 3 additions & 1 deletion NLPinterview/TextMatch/bert_similairity/readme.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,7 +2,9 @@

> 作者:杨夕
>
> 项目地址:https://github.com/km1994/nlp_paper_study
> 项目地址:https://github.com/km1994/NLP-Interview-Notes
>
> 个人论文读书笔记:https://github.com/km1994/nlp_paper_study
>
> 个人介绍:大佬们好,我叫杨夕,该项目主要是本人在研读顶会论文和复现经典论文过程中,所见、所思、所想、所闻,可能存在一些理解错误,希望大佬们多多指正。
Expand Down
7 changes: 5 additions & 2 deletions NLPinterview/ner/NERtrick/NERtrick.md
Original file line number Diff line number Diff line change
Expand Up @@ -2,10 +2,13 @@

> 作者:杨夕
>
> 项目地址:https://github.com/km1994/nlp_paper_study
> 项目地址:https://github.com/km1994/NLP-Interview-Notes
>
> 个人介绍:大佬们好,我叫杨夕,该项目主要是本人在研读顶会论文和复现经典论文过程中,所见、所思、所想、所闻,可能存在一些理解错误,希望大佬们多多指正。
> 个人论文读书笔记:https://github.com/km1994/nlp_paper_study
>
> 【注:手机阅读可能图片打不开!!!】
![](img/微信截图_20210224224353.png)

## trick 1:领域词典匹配

Expand Down
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Binary file not shown.
Binary file modified xmind/【关于 NLP】那些你不知道的事.xmind
Binary file not shown.

0 comments on commit 20e2085

Please sign in to comment.