Skip to content

Commit 595b5ce

Browse files
committed
fix math break
1 parent bccae03 commit 595b5ce

File tree

6 files changed

+35
-45
lines changed

6 files changed

+35
-45
lines changed

build/conf.py

+1-1
Original file line numberDiff line numberDiff line change
@@ -73,7 +73,7 @@ def __init__(self, **options):
7373

7474
# General information about the project.
7575
project = '《动手学深度学习》'
76-
copyright = '2017--2018, Contributors'
76+
copyright = '2017--2019, Contributors'
7777
author = "A. Zhang, M. Li, Z. C. Lipton, and A. J. Smola"
7878

7979

chapter_appendix/notation.md

+27-40
Original file line numberDiff line numberDiff line change
@@ -6,66 +6,53 @@
66

77
##
88

9-
|||
10-
|:--|:-:|
11-
|$x$| 标量|
12-
|$\boldsymbol{x}$|向量|
13-
|$\boldsymbol{X}$|矩阵|
14-
|$\mathsf{X}$|张量|
9+
10+
* $x$:标量
11+
* $\boldsymbol{x}$:向量
12+
* $\boldsymbol{X}$:矩阵
13+
* $\mathsf{X}$:张量
1514

1615

1716
## 集合
1817

19-
|||
20-
|:--|:-:|
21-
|$\mathcal{X}$|集合|
22-
|$\mathbb{R}$|实数集合|
23-
|$\mathbb{R}^n$|$n$维的实数向量集合|
24-
|$\mathbb{R}^{x \times y}$|$x$行$y$列的实数矩阵集合|
18+
* $\mathcal{X}$:集合
19+
* $\mathbb{R}$:实数集合
20+
* $\mathbb{R}^n$:$n$维的实数向量集合
21+
* $\mathbb{R}^{x\times y}$:$x$行$y$列的实数矩阵集合
2522

2623

2724
## 操作符
2825

29-
|||
30-
|:--|:-:|
31-
|$\boldsymbol{(\cdot)}^\top$|向量或矩阵的转置|
32-
|$\odot$|按元素相乘|
33-
|$\lvert\mathcal{X}\rvert$|集合$\mathcal{X}$中元素个数|
34-
|$\|\cdot\|_p$|$L_p$范数|
35-
|$\|\cdot\|$|$L_2$范数|
36-
|$\sum$|连加|
37-
|$\prod$|连乘|
26+
* $\boldsymbol{(\cdot)}^\top$:向量或矩阵的转置
27+
* $\odot$:按元素相乘
28+
* $\lvert\mathcal{X}\rvert$:集合$\mathcal{X}$中元素个数
29+
* $\|\cdot\|_p$:$L_p$范数
30+
* $\|\cdot\|$:$L_2$范数
31+
* $\sum$:连加
32+
* $\prod$:连乘
3833

3934

4035
## 函数
4136

42-
|||
43-
|:--|:-:|
44-
|$f(\cdot)$|函数|
45-
|$\log(\cdot)$|自然对数函数|
46-
|$\exp(\cdot)$|指数函数|
37+
* $f(\cdot)$:函数
38+
* $\log(\cdot)$:自然对数函数
39+
* $\exp(\cdot)$:指数函数
4740

4841

4942
## 导数和梯度
5043

51-
|||
52-
|:--|:-:|
53-
|$\frac{dy}{dx}$|$y$关于$x$的导数|
54-
|$\frac{\partial y}{\partial x}$|$y$关于$x$的偏导数|
55-
|$\nabla_{\cdot} y$|$y$关于$\cdot$的梯度|
44+
* $\frac{dy}{dx}$:$y$关于$x$的导数
45+
* $\frac{\partial y}{\partial x}$:$y$关于$x$的偏导数
46+
* $\nabla_{\cdot} y$:$y$关于$\cdot$的梯度
5647

5748

5849
## 概率和统计
59-
|||
60-
|:--|:-:|
61-
|$\mathbb{P}(\cdot)$|概率分布|
62-
|$\cdot\sim\mathbb{P}$|随机变量$\cdot$的概率分布是$\mathbb{P}$|
63-
|$\mathbb{P}(\cdot \mid\cdot)$|条件概率分布|
64-
|$\mathbb{E}_{\cdot}\left(f(\cdot)\right)$|函数$f(\cdot)$对$\cdot$的数学期望|
6550

51+
* $\mathbb{P}(\cdot)$:概率分布
52+
* $\cdot\sim\mathbb{P}$:随机变量$\cdot$的概率分布是$\mathbb{P}$
53+
* $\mathbb{P}(\cdot \mid\cdot)$:条件概率分布
54+
* $\mathbb{E}_{\cdot}\left(f(\cdot)\right)$:函数$f(\cdot)$对$\cdot$的数学期望
6655

6756
## 复杂度
6857

69-
|||
70-
|:--|:-:|
71-
|$\mathcal{O}$|大O符号(渐进符号)|
58+
* $\mathcal{O}$:大O符号(渐进符号)

chapter_deep-learning-basics/numerical-stability-and-init.md

+2-1
Original file line numberDiff line numberDiff line change
@@ -24,7 +24,8 @@
2424

2525
### Xavier随机初始化
2626

27-
还有一种比较常用的随机初始化方法叫做Xavier随机初始化 [1]。假设某全连接层的输入个数为$a$,输出个数为$b$,Xavier随机初始化将使得该层中权重参数的每个元素都随机采样于均匀分布
27+
还有一种比较常用的随机初始化方法叫做Xavier随机初始化 [1]
28+
假设某全连接层的输入个数为$a$,输出个数为$b$,Xavier随机初始化将使得该层中权重参数的每个元素都随机采样于均匀分布
2829

2930
$$U\left(-\sqrt{\frac{6}{a+b}}, \sqrt{\frac{6}{a+b}}\right).$$
3031

chapter_introduction/deep-learning-intro.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -67,7 +67,7 @@
6767

6868
* 另一个重大发展是生成对抗网络的发明 [8]。传统上,用在概率分布估计和生成模型上的统计方法更多地关注于找寻正确的概率分布,以及正确的采样算法。生成对抗网络的关键创新在于将采样部分替换成了任意的含有可微分参数的算法。这些参数将被训练到使辨别器不能再分辨真实的和生成的样本。生成对抗网络可使用任意算法来生成输出的这一特性为许多技巧打开了新的大门。例如生成奔跑的斑马 [9]和生成名流的照片 [10] 都是生成对抗网络发展的见证。
6969

70-
* 许多情况下单个GPU已经不能满足在大型数据集上进行训练的需要。过去10年内我们构建分布式并行训练算法的能力已经有了极大的提升。设计可扩展算法的最大瓶颈在于深度学习优化算法的核心:随机梯度下降需要相对更小的批量。与此同时,更小的批量也会降低GPU的效率。如果使用1024个GPU,每个GPU的批量大小为32个样本,那么单步训练的批量大小将是32 000个以上。近年来李沐 [11]、Yang You等人 [12]以及Xianyan Jia等人 [13]的工作将批量大小增至多达64 000个样例,并把在ImageNet数据集上训练ResNet-50模型的时间降到了7分钟。与之对比,最初的训练时间需要以天来计算。
70+
* 许多情况下单个GPU已经不能满足在大型数据集上进行训练的需要。过去10年内我们构建分布式并行训练算法的能力已经有了极大的提升。设计可扩展算法的最大瓶颈在于深度学习优化算法的核心:随机梯度下降需要相对更小的批量。与此同时,更小的批量也会降低GPU的效率。如果使用1 024个GPU,每个GPU的批量大小为32个样本,那么单步训练的批量大小将是32 000个以上。近年来李沐 [11]、Yang You等人 [12]以及Xianyan Jia等人 [13]的工作将批量大小增至多达64 000个样例,并把在ImageNet数据集上训练ResNet-50模型的时间降到了7分钟。与之对比,最初的训练时间需要以天来计算。
7171

7272
* 并行计算的能力也为至少在可以采用模拟情况下的强化学习的发展贡献了力量。并行计算帮助计算机在围棋、雅达利游戏、星际争霸和物理模拟上达到了超过人类的水准。
7373

chapter_natural-language-processing/attention.md

+2-1
Original file line numberDiff line numberDiff line change
@@ -56,7 +56,8 @@ $$\text{softmax}(\boldsymbol{Q}\boldsymbol{K}^\top)\boldsymbol{V}$$
5656

5757
## 更新隐藏状态
5858

59-
以门控循环单元为例,在解码器中我们可以对门控循环单元的设计稍作修改 [1]。解码器在时间步$t'$的隐藏状态为
59+
以门控循环单元为例,在解码器中我们可以对门控循环单元的设计稍作修改 [1]
60+
解码器在时间步$t'$的隐藏状态为
6061

6162
$$\boldsymbol{s}_{t'} = \boldsymbol{z}_{t'} \odot \boldsymbol{s}_{t'-1} + (1 - \boldsymbol{z}_{t'}) \odot \tilde{\boldsymbol{s}}_{t'},$$
6263

chapter_natural-language-processing/word2vec-gluon.md

+2-1
Original file line numberDiff line numberDiff line change
@@ -62,7 +62,8 @@ num_tokens = sum([len(st) for st in dataset])
6262

6363
### 二次采样
6464

65-
文本数据中一般会出现一些高频词,例如英文中的“the”、“a”和“in”。通常来说,在一个背景窗口中,一个词(如“chip”)和较低频词(如“microprocessor”)同时出现比和较高频词(如“the”)同时出现对训练词嵌入模型更有益。因此,训练词嵌入模型时可以对词进行二次采样 [2]。具体来说,数据集中每个被索引词$w_i$将有一定概率被丢弃,该丢弃概率为
65+
文本数据中一般会出现一些高频词,例如英文中的“the”、“a”和“in”。通常来说,在一个背景窗口中,一个词(如“chip”)和较低频词(如“microprocessor”)同时出现比和较高频词(如“the”)同时出现对训练词嵌入模型更有益。因此,训练词嵌入模型时可以对词进行二次采样 [2]
66+
具体来说,数据集中每个被索引词$w_i$将有一定概率被丢弃,该丢弃概率为
6667

6768
$$ \mathbb{P}(w_i) = \max\left(1 - \sqrt{\frac{t}{f(w_i)}}, 0\right),$$
6869

0 commit comments

Comments
 (0)