Skip to content

Commit 0a6c41c

Browse files
committed
fix prob and expectation symbols
1 parent 1deef43 commit 0a6c41c

File tree

5 files changed

+7
-7
lines changed

5 files changed

+7
-7
lines changed

chapter_appendix/notation.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -46,7 +46,7 @@
4646
## 概率和统计
4747

4848
* $P(\cdot)$:概率分布
49-
* $\cdot\simP$:随机变量$\cdot$的概率分布是$P$
49+
* $\cdot\sim P$:随机变量$\cdot$的概率分布是$P$
5050
* $P(\cdot \mid\cdot)$:条件概率分布
5151
* $E_{\cdot}\left(f(\cdot)\right)$:函数$f(\cdot)$对$\cdot$的数学期望
5252

chapter_natural-language-processing/approx-training.md

+2-2
Original file line numberDiff line numberDiff line change
@@ -41,8 +41,8 @@ $$ P(w^{(t+j)} \mid w^{(t)}) =P(D=1\mid w^{(t)}, w^{(t+j)})\prod_{k=1,\ w_k \sim
4141

4242
$$
4343
\begin{aligned}
44-
-\logP(w^{(t+j)} \mid w^{(t)})
45-
=& -\logP(D=1\mid w^{(t)}, w^{(t+j)}) - \sum_{k=1,\ w_k \sim P(w)}^K \logP(D=0\mid w^{(t)}, w_k)\\
44+
-\log P(w^{(t+j)} \mid w^{(t)})
45+
=& -\log P(D=1\mid w^{(t)}, w^{(t+j)}) - \sum_{k=1,\ w_k \sim P(w)}^K \log P(D=0\mid w^{(t)}, w_k)\\
4646
=&- \log\, \sigma\left(\boldsymbol{u}_{i_{t+j}}^\top \boldsymbol{v}_{i_t}\right) - \sum_{k=1,\ w_k \sim P(w)}^K \log\left(1-\sigma\left(\boldsymbol{u}_{h_k}^\top \boldsymbol{v}_{i_t}\right)\right)\\
4747
=&- \log\, \sigma\left(\boldsymbol{u}_{i_{t+j}}^\top \boldsymbol{v}_{i_t}\right) - \sum_{k=1,\ w_k \sim P(w)}^K \log\sigma\left(-\boldsymbol{u}_{h_k}^\top \boldsymbol{v}_{i_t}\right).
4848
\end{aligned}

chapter_natural-language-processing/seq2seq.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -59,7 +59,7 @@ $$
5959

6060
并得到该输出序列的损失
6161

62-
$$- \logP(y_1, \ldots, y_{T'} \mid x_1, \ldots, x_T) = -\sum_{t'=1}^{T'} \log P(y_{t'} \mid y_1, \ldots, y_{t'-1}, \boldsymbol{c}),$$
62+
$$- \log P(y_1, \ldots, y_{T'} \mid x_1, \ldots, x_T) = -\sum_{t'=1}^{T'} \log P(y_{t'} \mid y_1, \ldots, y_{t'-1}, \boldsymbol{c}),$$
6363

6464
在模型训练中,所有输出序列损失的均值通常作为需要最小化的损失函数。在图10.8所描述的模型预测中,我们需要将解码器在上一个时间步的输出作为当前时间步的输入。与此不同,在训练中我们也可以将标签序列(训练集的真实输出序列)在上一个时间步的标签作为解码器在当前时间步的输入。这叫作强制教学(teacher forcing)。
6565

chapter_natural-language-processing/word2vec.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -26,7 +26,7 @@ $$P(\textrm{``the"},\textrm{``man"},\textrm{``his"},\textrm{``son"}\mid\textrm{`
2626

2727
假设给定中心词的情况下,背景词的生成是相互独立的,那么上式可以改写成
2828

29-
$$P(\textrm{``the"}\mid\textrm{``loves"})\cdotP(\textrm{``man"}\mid\textrm{``loves"})\cdotP(\textrm{``his"}\mid\textrm{``loves"})\cdotP(\textrm{``son"}\mid\textrm{``loves"}).$$
29+
$$P(\textrm{``the"}\mid\textrm{``loves"})\cdot P(\textrm{``man"}\mid\textrm{``loves"})\cdot P(\textrm{``his"}\mid\textrm{``loves"})\cdot P(\textrm{``son"}\mid\textrm{``loves"}).$$
3030

3131
![跳字模型关心给定中心词生成背景词的条件概率](../img/skip-gram.svg)
3232

chapter_recurrent-neural-networks/lang-model.md

+2-2
Original file line numberDiff line numberDiff line change
@@ -13,11 +13,11 @@ $$P(w_1, w_2, \ldots, w_T).$$
1313

1414
既然语言模型很有用,那该如何计算它呢?假设序列$w_1, w_2, \ldots, w_T$中的每个词是依次生成的,我们有
1515

16-
$$P(w_1, w_2, \ldots, w_T) = \prod_{t=1}^T P(w_t \mid w_1, \ldots, w_{t-1}) .$$
16+
$$P(w_1, w_2, \ldots, w_T) = \prod_{t=1}^T P(w_t \mid w_1, \ldots, w_{t-1}).$$
1717

1818
例如,一段含有4个词的文本序列的概率
1919

20-
$$P(w_1, w_2, w_3, w_4) = P(w_1) P(w_2 \mid w_1) P(w_3 \mid w_1, w_2) P(w_4 \mid w_1, w_2, w_3) .$$
20+
$$P(w_1, w_2, w_3, w_4) = P(w_1) P(w_2 \mid w_1) P(w_3 \mid w_1, w_2) P(w_4 \mid w_1, w_2, w_3).$$
2121

2222
为了计算语言模型,我们需要计算词的概率,以及一个词在给定前几个词的情况下的条件概率,即语言模型参数。设训练数据集为一个大型文本语料库,如维基百科的所有条目。词的概率可以通过该词在训练数据集中的相对词频来计算。例如,$P(w_1)$可以计算为$w_1$在训练数据集中的词频(词出现的次数)与训练数据集的总词数之比。因此,根据条件概率定义,一个词在给定前几个词的情况下的条件概率也可以通过训练数据集中的相对词频计算。例如,$P(w_2 \mid w_1)$可以计算为$w_1, w_2$两词相邻的频率与$w_1$词频的比值,因为该比值即$P(w_1, w_2)$与$P(w_1)$之比;而$P(w_3 \mid w_1, w_2)$同理可以计算为$w_1$、$w_2$和$w_3$三词相邻的频率与$w_1$和$w_2$两词相邻的频率的比值。以此类推。
2323

0 commit comments

Comments
 (0)