fix math break

astonzhang · astonzhang · commit 595b5ce5cebf · 2019-01-09T01:38:49.000Z
diff --git a/build/conf.py b/build/conf.py
@@ -73,7 +73,7 @@ def __init__(self, **options):
 
 # General information about the project.
 project = '《动手学深度学习》'
-copyright = '2017--2018, Contributors'
+copyright = '2017--2019, Contributors'
 author = "A. Zhang, M. Li, Z. C. Lipton, and A. J. Smola"
 
 
diff --git a/chapter_appendix/notation.md b/chapter_appendix/notation.md
@@ -6,66 +6,53 @@
 
 ## 数
 
-|||
-|:--|:-:|
-|$x$| 标量|
-|$\boldsymbol{x}$|向量|
-|$\boldsymbol{X}$|矩阵|
-|$\mathsf{X}$|张量|
+
+* $x$：标量
+* $\boldsymbol{x}$：向量
+* $\boldsymbol{X}$：矩阵
+* $\mathsf{X}$：张量
 
 
 ## 集合
 
-|||
-|:--|:-:|
-|$\mathcal{X}$|集合|
-|$\mathbb{R}$|实数集合|
-|$\mathbb{R}^n$|$n$维的实数向量集合|
-|$\mathbb{R}^{x \times y}$|$x$行$y$列的实数矩阵集合|
+* $\mathcal{X}$：集合
+* $\mathbb{R}$：实数集合
+* $\mathbb{R}^n$：$n$维的实数向量集合
+* $\mathbb{R}^{x\times y}$：$x$行$y$列的实数矩阵集合
 
 
 ## 操作符
 
-|||
-|:--|:-:|
-|$\boldsymbol{(\cdot)}^\top$|向量或矩阵的转置|
-|$\odot$|按元素相乘|
-|$\lvert\mathcal{X}\rvert$|集合$\mathcal{X}$中元素个数|
-|$\|\cdot\|_p$|$L_p$范数|
-|$\|\cdot\|$|$L_2$范数|
-|$\sum$|连加|
-|$\prod$|连乘|
+* $\boldsymbol{(\cdot)}^\top$：向量或矩阵的转置
+* $\odot$：按元素相乘
+* $\lvert\mathcal{X}\rvert$：集合$\mathcal{X}$中元素个数
+* $\|\cdot\|_p$：$L_p$范数
+* $\|\cdot\|$：$L_2$范数
+* $\sum$：连加
+* $\prod$：连乘
 
 
 ## 函数
 
-|||
-|:--|:-:|
-|$f(\cdot)$|函数|
-|$\log(\cdot)$|自然对数函数|
-|$\exp(\cdot)$|指数函数|
+* $f(\cdot)$：函数
+* $\log(\cdot)$：自然对数函数
+* $\exp(\cdot)$：指数函数
 
 
 ## 导数和梯度
 
-|||
-|:--|:-:|
-|$\frac{dy}{dx}$|$y$关于$x$的导数|
-|$\frac{\partial y}{\partial x}$|$y$关于$x$的偏导数|
-|$\nabla_{\cdot} y$|$y$关于$\cdot$的梯度|
+* $\frac{dy}{dx}$：$y$关于$x$的导数
+* $\frac{\partial y}{\partial x}$：$y$关于$x$的偏导数
+* $\nabla_{\cdot} y$：$y$关于$\cdot$的梯度
 
 
 ## 概率和统计
-|||
-|:--|:-:|
-|$\mathbb{P}(\cdot)$|概率分布|
-|$\cdot\sim\mathbb{P}$|随机变量$\cdot$的概率分布是$\mathbb{P}$|
-|$\mathbb{P}(\cdot \mid\cdot)$|条件概率分布|
-|$\mathbb{E}_{\cdot}\left(f(\cdot)\right)$|函数$f(\cdot)$对$\cdot$的数学期望|
 
+* $\mathbb{P}(\cdot)$：概率分布
+* $\cdot\sim\mathbb{P}$：随机变量$\cdot$的概率分布是$\mathbb{P}$
+* $\mathbb{P}(\cdot \mid\cdot)$：条件概率分布
+* $\mathbb{E}_{\cdot}\left(f(\cdot)\right)$：函数$f(\cdot)$对$\cdot$的数学期望
 
 ## 复杂度
 
-|||
-|:--|:-:|
-|$\mathcal{O}$|大O符号（渐进符号）|
+* $\mathcal{O}$：大O符号（渐进符号）
diff --git a/chapter_deep-learning-basics/numerical-stability-and-init.md b/chapter_deep-learning-basics/numerical-stability-and-init.md
@@ -24,7 +24,8 @@
 
 ### Xavier随机初始化
 
-还有一种比较常用的随机初始化方法叫做Xavier随机初始化 [1]。假设某全连接层的输入个数为$a$，输出个数为$b$，Xavier随机初始化将使得该层中权重参数的每个元素都随机采样于均匀分布
+还有一种比较常用的随机初始化方法叫做Xavier随机初始化 [1]。
+假设某全连接层的输入个数为$a$，输出个数为$b$，Xavier随机初始化将使得该层中权重参数的每个元素都随机采样于均匀分布
 
 $$U\left(-\sqrt{\frac{6}{a+b}}, \sqrt{\frac{6}{a+b}}\right).$$
 
diff --git a/chapter_introduction/deep-learning-intro.md b/chapter_introduction/deep-learning-intro.md
@@ -67,7 +67,7 @@
 
 * 另一个重大发展是生成对抗网络的发明 [8]。传统上，用在概率分布估计和生成模型上的统计方法更多地关注于找寻正确的概率分布，以及正确的采样算法。生成对抗网络的关键创新在于将采样部分替换成了任意的含有可微分参数的算法。这些参数将被训练到使辨别器不能再分辨真实的和生成的样本。生成对抗网络可使用任意算法来生成输出的这一特性为许多技巧打开了新的大门。例如生成奔跑的斑马 [9]和生成名流的照片 [10] 都是生成对抗网络发展的见证。
 
-* 许多情况下单个GPU已经不能满足在大型数据集上进行训练的需要。过去10年内我们构建分布式并行训练算法的能力已经有了极大的提升。设计可扩展算法的最大瓶颈在于深度学习优化算法的核心：随机梯度下降需要相对更小的批量。与此同时，更小的批量也会降低GPU的效率。如果使用1024个GPU，每个GPU的批量大小为32个样本，那么单步训练的批量大小将是32 000个以上。近年来李沐 [11]、Yang You等人 [12]以及Xianyan Jia等人 [13]的工作将批量大小增至多达64 000个样例，并把在ImageNet数据集上训练ResNet-50模型的时间降到了7分钟。与之对比，最初的训练时间需要以天来计算。
+* 许多情况下单个GPU已经不能满足在大型数据集上进行训练的需要。过去10年内我们构建分布式并行训练算法的能力已经有了极大的提升。设计可扩展算法的最大瓶颈在于深度学习优化算法的核心：随机梯度下降需要相对更小的批量。与此同时，更小的批量也会降低GPU的效率。如果使用1 024个GPU，每个GPU的批量大小为32个样本，那么单步训练的批量大小将是32 000个以上。近年来李沐 [11]、Yang You等人 [12]以及Xianyan Jia等人 [13]的工作将批量大小增至多达64 000个样例，并把在ImageNet数据集上训练ResNet-50模型的时间降到了7分钟。与之对比，最初的训练时间需要以天来计算。
 
 * 并行计算的能力也为至少在可以采用模拟情况下的强化学习的发展贡献了力量。并行计算帮助计算机在围棋、雅达利游戏、星际争霸和物理模拟上达到了超过人类的水准。
 
diff --git a/chapter_natural-language-processing/attention.md b/chapter_natural-language-processing/attention.md
@@ -56,7 +56,8 @@ $$\text{softmax}(\boldsymbol{Q}\boldsymbol{K}^\top)\boldsymbol{V}$$
 
 ## 更新隐藏状态
 
-以门控循环单元为例，在解码器中我们可以对门控循环单元的设计稍作修改 [1]。解码器在时间步$t'$的隐藏状态为
+以门控循环单元为例，在解码器中我们可以对门控循环单元的设计稍作修改 [1]。
+解码器在时间步$t'$的隐藏状态为
 
 $$\boldsymbol{s}_{t'} = \boldsymbol{z}_{t'} \odot \boldsymbol{s}_{t'-1}  + (1 - \boldsymbol{z}_{t'}) \odot \tilde{\boldsymbol{s}}_{t'},$$
 
diff --git a/chapter_natural-language-processing/word2vec-gluon.md b/chapter_natural-language-processing/word2vec-gluon.md
@@ -62,7 +62,8 @@ num_tokens = sum([len(st) for st in dataset])
 
 ### 二次采样
 
-文本数据中一般会出现一些高频词，例如英文中的“the”、“a”和“in”。通常来说，在一个背景窗口中，一个词（如“chip”）和较低频词（如“microprocessor”）同时出现比和较高频词（如“the”）同时出现对训练词嵌入模型更有益。因此，训练词嵌入模型时可以对词进行二次采样 [2]。具体来说，数据集中每个被索引词$w_i$将有一定概率被丢弃，该丢弃概率为
+文本数据中一般会出现一些高频词，例如英文中的“the”、“a”和“in”。通常来说，在一个背景窗口中，一个词（如“chip”）和较低频词（如“microprocessor”）同时出现比和较高频词（如“the”）同时出现对训练词嵌入模型更有益。因此，训练词嵌入模型时可以对词进行二次采样 [2]。
+具体来说，数据集中每个被索引词$w_i$将有一定概率被丢弃，该丢弃概率为
 
 $$ \mathbb{P}(w_i) = \max\left(1 - \sqrt{\frac{t}{f(w_i)}}, 0\right),$$