fix prob and expectation symbols

astonzhang · astonzhang · commit 0a6c41c84405 · 2019-01-18T19:34:43.000Z
diff --git a/chapter_appendix/notation.md b/chapter_appendix/notation.md
@@ -46,7 +46,7 @@
 ## 概率和统计
 
 * $P(\cdot)$：概率分布
-* $\cdot\simP$：随机变量$\cdot$的概率分布是$P$
+* $\cdot\sim P$：随机变量$\cdot$的概率分布是$P$
 * $P(\cdot \mid\cdot)$：条件概率分布
 * $E_{\cdot}\left(f(\cdot)\right)$：函数$f(\cdot)$对$\cdot$的数学期望
 
diff --git a/chapter_natural-language-processing/approx-training.md b/chapter_natural-language-processing/approx-training.md
@@ -41,8 +41,8 @@ $$ P(w^{(t+j)} \mid w^{(t)}) =P(D=1\mid w^{(t)}, w^{(t+j)})\prod_{k=1,\ w_k \sim
 
 $$
 \begin{aligned}
--\logP(w^{(t+j)} \mid w^{(t)})
-=& -\logP(D=1\mid w^{(t)}, w^{(t+j)}) - \sum_{k=1,\ w_k \sim P(w)}^K \logP(D=0\mid w^{(t)}, w_k)\\
+-\log P(w^{(t+j)} \mid w^{(t)})
+=& -\log P(D=1\mid w^{(t)}, w^{(t+j)}) - \sum_{k=1,\ w_k \sim P(w)}^K \log P(D=0\mid w^{(t)}, w_k)\\
 =&-  \log\, \sigma\left(\boldsymbol{u}_{i_{t+j}}^\top \boldsymbol{v}_{i_t}\right) - \sum_{k=1,\ w_k \sim P(w)}^K \log\left(1-\sigma\left(\boldsymbol{u}_{h_k}^\top \boldsymbol{v}_{i_t}\right)\right)\\
 =&-  \log\, \sigma\left(\boldsymbol{u}_{i_{t+j}}^\top \boldsymbol{v}_{i_t}\right) - \sum_{k=1,\ w_k \sim P(w)}^K \log\sigma\left(-\boldsymbol{u}_{h_k}^\top \boldsymbol{v}_{i_t}\right).
 \end{aligned}
diff --git a/chapter_natural-language-processing/seq2seq.md b/chapter_natural-language-processing/seq2seq.md
@@ -59,7 +59,7 @@ $$
 
 并得到该输出序列的损失
 
-$$- \logP(y_1, \ldots, y_{T'} \mid x_1, \ldots, x_T) = -\sum_{t'=1}^{T'} \log P(y_{t'} \mid y_1, \ldots, y_{t'-1}, \boldsymbol{c}),$$
+$$- \log P(y_1, \ldots, y_{T'} \mid x_1, \ldots, x_T) = -\sum_{t'=1}^{T'} \log P(y_{t'} \mid y_1, \ldots, y_{t'-1}, \boldsymbol{c}),$$
 
 在模型训练中，所有输出序列损失的均值通常作为需要最小化的损失函数。在图10.8所描述的模型预测中，我们需要将解码器在上一个时间步的输出作为当前时间步的输入。与此不同，在训练中我们也可以将标签序列（训练集的真实输出序列）在上一个时间步的标签作为解码器在当前时间步的输入。这叫作强制教学（teacher forcing）。
 
diff --git a/chapter_natural-language-processing/word2vec.md b/chapter_natural-language-processing/word2vec.md
@@ -26,7 +26,7 @@ $$P(\textrm{``the"},\textrm{``man"},\textrm{``his"},\textrm{``son"}\mid\textrm{`
 
 假设给定中心词的情况下，背景词的生成是相互独立的，那么上式可以改写成
 
-$$P(\textrm{``the"}\mid\textrm{``loves"})\cdotP(\textrm{``man"}\mid\textrm{``loves"})\cdotP(\textrm{``his"}\mid\textrm{``loves"})\cdotP(\textrm{``son"}\mid\textrm{``loves"}).$$
+$$P(\textrm{``the"}\mid\textrm{``loves"})\cdot P(\textrm{``man"}\mid\textrm{``loves"})\cdot P(\textrm{``his"}\mid\textrm{``loves"})\cdot P(\textrm{``son"}\mid\textrm{``loves"}).$$
 
 ![跳字模型关心给定中心词生成背景词的条件概率](../img/skip-gram.svg)
 
diff --git a/chapter_recurrent-neural-networks/lang-model.md b/chapter_recurrent-neural-networks/lang-model.md
@@ -13,11 +13,11 @@ $$P(w_1, w_2, \ldots, w_T).$$
 
 既然语言模型很有用，那该如何计算它呢？假设序列$w_1, w_2, \ldots, w_T$中的每个词是依次生成的，我们有
 
-$$P(w_1, w_2, \ldots, w_T) = \prod_{t=1}^T P(w_t \mid w_1, \ldots, w_{t-1}) .$$
+$$P(w_1, w_2, \ldots, w_T) = \prod_{t=1}^T P(w_t \mid w_1, \ldots, w_{t-1}).$$
 
 例如，一段含有4个词的文本序列的概率
 
-$$P(w_1, w_2, w_3, w_4) =  P(w_1) P(w_2 \mid w_1) P(w_3 \mid w_1, w_2) P(w_4 \mid w_1, w_2, w_3) .$$
+$$P(w_1, w_2, w_3, w_4) =  P(w_1) P(w_2 \mid w_1) P(w_3 \mid w_1, w_2) P(w_4 \mid w_1, w_2, w_3).$$
 
 为了计算语言模型，我们需要计算词的概率，以及一个词在给定前几个词的情况下的条件概率，即语言模型参数。设训练数据集为一个大型文本语料库，如维基百科的所有条目。词的概率可以通过该词在训练数据集中的相对词频来计算。例如，$P(w_1)$可以计算为$w_1$在训练数据集中的词频（词出现的次数）与训练数据集的总词数之比。因此，根据条件概率定义，一个词在给定前几个词的情况下的条件概率也可以通过训练数据集中的相对词频计算。例如，$P(w_2 \mid w_1)$可以计算为$w_1, w_2$两词相邻的频率与$w_1$词频的比值，因为该比值即$P(w_1, w_2)$与$P(w_1)$之比；而$P(w_3 \mid w_1, w_2)$同理可以计算为$w_1$、$w_2$和$w_3$三词相邻的频率与$w_1$和$w_2$两词相邻的频率的比值。以此类推。