Skip to content

Commit

Permalink
chapter_recurrent-modern/index (d2l-ai#787)
Browse files Browse the repository at this point in the history
* chapter_recurrent-modern/index

* Update index.md

Co-authored-by: goldmermaid <[email protected]>
  • Loading branch information
xiaotinghe and goldmermaid authored May 6, 2021
1 parent d3c04cd commit ef4688f
Showing 1 changed file with 13 additions and 4 deletions.
17 changes: 13 additions & 4 deletions chapter_recurrent-modern/index.md
Original file line number Diff line number Diff line change
@@ -1,11 +1,20 @@
# 现代循环神经网络
:label:`chap_modern_rnn`

我们已经介绍了循环神经网络的基础知识,这种网络可以更好地处理序列数据。为了演示效果,我们在文本数据上实现了基于循环神经网络的语言模型。但是,这些技术对于从业人员面对当今各种序列学习问题时可能是不够用的。
前文中我们已经介绍了循环神经网络的基础知识,这种网络可以更好地处理序列数据。
同时,我们在文本数据上实现了基于循环神经网络的语言模型。
但是,对于面对当今各种序列学习问题的从业人员,这些技术可能并不够用。

例如,实践中一个显著问题是循环神经网络的数值不稳定性。尽管我们已经应用了梯度裁剪等实现技巧,但是通过设计更复杂的序列模型可以进一步缓解这个问题。具体来说,在实践中更常见的门控循环神经网络。首先,我们将引入两个广泛使用的网络,即 *门控循环单元* (gated recurrent units, GRU) 和 *长短期记忆网络* (long short-term memory, LSTM)。然后,我们将基于迄今为止讨论过的一个单向隐藏层来扩展循环神经网络架构。我们将描述具有多个隐藏层的深层架构,并讨论基于前向和后向循环计算的双向设计。现代循环网络经常采用这种扩展。在解释这些循环神经网络的变体时,我们将继续考虑 :numref:`chap_rnn` 中引入的语言建模问题。
例如,循环神经网络在实践中的一个常见问题是数值不稳定性。
尽管我们已经应用了梯度裁剪等实现技巧,但是通过设计更复杂的序列模型可以进一步缓解这个问题。
本章中,我们首先将介绍两个广泛使用的网络,即 *门控循环单元* (gated recurrent units, GRU) 和 *长短期记忆网络* (long short-term memory, LSTM)。
然后,我们将基于单向隐藏层来扩展循环神经网络架构,现代循环网络经常采用这种扩展。
我们将描述具有多个隐藏层的深层架构,并讨论基于前向和后向循环计算的双向设计。
在解释这些循环神经网络的变体时,我们将继续考虑 :numref:`chap_rnn` 中引入的语言模型问题。

事实上,语言建模只揭示了序列学习能力的一小部分。在各种序列学习问题中,如自动语音识别、文本到语音的转换和机器翻译,输入和输出都是任意长度的序列。为了解释如何拟合这种类型的数据,我们将以机器翻译为例介绍基于循环神经网络的“编码器-解码器”架构和束搜索,并以此生成序列。
事实上,语言建模只描绘了序列学习能力的冰山一角。
在各种序列学习问题中,如自动语音识别、文本到语音的转换和机器翻译,输入和输出都是任意长度的序列。
本章中,我们将以机器翻译为例介绍基于循环神经网络的“编码器-解码器”结构和束搜索,并用它们来生成序列。

```toc
:maxdepth: 2
Expand All @@ -18,4 +27,4 @@ machine-translation-and-dataset
encoder-decoder
seq2seq
beam-search
```
```

0 comments on commit ef4688f

Please sign in to comment.