Skip to content

Commit 240ec4d

Browse files
Ramlinbirdastonzhang
authored andcommitted
修正一些表述问题 (d2l-ai#416)
1 parent 5937429 commit 240ec4d

File tree

2 files changed

+2
-2
lines changed

2 files changed

+2
-2
lines changed

chapter_recurrent-neural-networks/lang-model.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -24,7 +24,7 @@ $$\mathbb{P}(w_1, w_2, w_3, w_4) = \mathbb{P}(w_1) \mathbb{P}(w_2 \mid w_1) \ma
2424

2525
## $N$元语法
2626

27-
当序列长度增加时,计算和存储多个词共同出现的概率会呈指数级增加。$N$元语法通过马尔可夫假设(虽然并不一定成立)简化了语言模型的计算。这里的马尔可夫假设是指一个词的出现只与前面$n$个词相关,即$n$阶马尔可夫链(Markov chain of order $n$)。如果$n=1$,那么我们有$\mathbb{P}(w_3 \mid w_1, w_2) = \mathbb{P}(w_3 \mid w_2)$。如果基于$n-1$阶马尔可夫链,我们可以将语言模型改写为
27+
当序列长度增加时,计算和存储多个词共同出现的概率的复杂度会呈指数级增加。$N$元语法通过马尔可夫假设(虽然并不一定成立)简化了语言模型的计算。这里的马尔可夫假设是指一个词的出现只与前面$n$个词相关,即$n$阶马尔可夫链(Markov chain of order $n$)。如果$n=1$,那么我们有$\mathbb{P}(w_3 \mid w_1, w_2) = \mathbb{P}(w_3 \mid w_2)$。如果基于$n-1$阶马尔可夫链,我们可以将语言模型改写为
2828

2929
$$\mathbb{P}(w_1, w_2, \ldots, w_T) \approx \prod_{t=1}^T \mathbb{P}(w_t \mid w_{t-(n-1)}, \ldots, w_{t-1}) .$$
3030

chapter_recurrent-neural-networks/rnn.md

+1-1
Original file line numberDiff line numberDiff line change
@@ -20,7 +20,7 @@ $$\boldsymbol{O} = \boldsymbol{H} \boldsymbol{W}_{hq} + \boldsymbol{b}_q,$$
2020

2121
## 含隐藏状态的循环神经网络
2222

23-
现在我们考虑输入数据存在时间相关性的情况。假设$\boldsymbol{X}_t \in \mathbb{R}^{n \times d}$是序列中时间步$t$的小批量输入,$\boldsymbol{H}_t \in \mathbb{R}^{n \times h}$该时间步的隐藏层变量。跟多层感知机不同的是,这里我们保存上一时间步的隐藏变量$\boldsymbol{H}_{t-1}$,并引入一个新的权重参数$\boldsymbol{W}_{hh} \in \mathbb{R}^{h \times h}$,该参数用来描述在当前时间步如何使用上一时间步的隐藏变量。具体来说,当前时间步的隐藏变量的计算由当前时间步的输入和上一时间步的隐藏变量共同决定:
23+
现在我们考虑输入数据存在时间相关性的情况。假设$\boldsymbol{X}_t \in \mathbb{R}^{n \times d}$是序列中时间步$t$的小批量输入,$\boldsymbol{H}_t \in \mathbb{R}^{n \times h}$是该时间步的隐藏层变量。跟多层感知机不同的是,这里我们保存上一时间步的隐藏变量$\boldsymbol{H}_{t-1}$,并引入一个新的权重参数$\boldsymbol{W}_{hh} \in \mathbb{R}^{h \times h}$,该参数用来描述在当前时间步如何使用上一时间步的隐藏变量。具体来说,当前时间步的隐藏变量的计算由当前时间步的输入和上一时间步的隐藏变量共同决定:
2424

2525
$$\boldsymbol{H}_t = \phi(\boldsymbol{X}_t \boldsymbol{W}_{xh} + \boldsymbol{H}_{t-1} \boldsymbol{W}_{hh} + \boldsymbol{b}_h).$$
2626

0 commit comments

Comments
 (0)