Skip to content

Commit

Permalink
update typo
Browse files Browse the repository at this point in the history
  • Loading branch information
SwordYork committed Sep 4, 2017
1 parent 949f205 commit 8c5bb33
Show file tree
Hide file tree
Showing 17 changed files with 44 additions and 44 deletions.
2 changes: 1 addition & 1 deletion Chapter11/practical_methodology.tex
Original file line number Diff line number Diff line change
Expand Up @@ -22,7 +22,7 @@ \chapter{实践方法论}
% -- 409 end


\item 尽快建立一个\gls{end_to_end}的工作流程,包括估计合适的\gls{performance_metrics}。
\item 尽快建立一个\gls{end_to_end}工作流程,包括估计合适的\gls{performance_metrics}。
% 410 head

\item 搭建系统,并确定性能瓶颈。
Expand Down
8 changes: 4 additions & 4 deletions Chapter12/applications.tex
Original file line number Diff line number Diff line change
Expand Up @@ -171,7 +171,7 @@ \subsection{\glsentrytext{model_compression}}


减少推断所需开销的一个关键策略是\firstgls{model_compression}~\citep{bucilua2006model}。
\gls{model_compression}的基本思想是用一个更小的模型取代替原始耗时的模型,从而使得用来存储与评估所需的内存与运行时间更少。
\gls{model_compression}的基本思想是用一个更小的模型取代原始耗时的模型,从而使得用来存储与评估所需的内存与运行时间更少。



Expand Down Expand Up @@ -746,7 +746,7 @@ \subsubsection{使用\glsentrytext{shortlist}}
& + 1_{i \in \SetT} P(y=i\mid C, i \in \SetT) P(i \in \SetT\mid C),
\end{align}
其中$P(y=i\mid C, i \in \SetL)$\gls{NLM}提供$P(y=i\mid C, i \in \SetT)$由~\gls{n_gram}~模型提供。
稍作修改,这种方法也可以在\gls{NLM}模型的~\ENNAME{softmax}~层中使用额外的输出值,而不是单独的~\ENNAME{sigmoid}~单元。
稍作修改,这种方法也可以在\gls{NLM}~\ENNAME{softmax}~层中使用额外的输出值,而不是单独的~\ENNAME{sigmoid}~单元。

\gls{shortlist}方法的一个明显缺点是,\gls{NLM}的潜在泛化优势仅限于最常用的词,这大概是最没用的。
这个缺点引发了处理高维输出替代方法的探索,如下所述。
Expand Down Expand Up @@ -1019,7 +1019,7 @@ \subsubsection{使用\glsentrytext{attention_mechanism}并对齐数据片段}
当用一种语言书写的句子中的词与另一种语言的翻译语句中的相应词对齐时,可以使对应的\gls{word_embedding}相关联。
早期的工作表明,我们可以学习将一种语言中的\gls{word_embedding}与另一种语言中的\gls{word_embedding}相关联的翻译矩阵\citep{Kocisky-et-al-ACL2014},与传统的基于短语表中频率计数的方法相比,可以产生较低的对齐错误率。
更早的工作\citep{Klementiev-et-al-COLING2012}也对跨语言词向量进行了研究。
这种方法的存在很多扩展
这种方法存在很多的扩展
例如,允许在更大数据集上训练的更高效的跨语言对齐~\citep{Gouws-et-al-arxiv2014} 。

\subsection{历史展望}
Expand Down Expand Up @@ -1132,7 +1132,7 @@ \subsubsection{\glsentrytext{exploration}与\glsentrytext{exploitation}}
这类似于\gls{RL}的情况,其中仅观察到所选动作的奖励。
一般来说,\gls{RL}会涉及许多动作和许多奖励的序列。
\gls{bandit}~情景是\gls{RL}的特殊情况,其中学习者仅采取单一动作并接收单个奖励。
\gls{bandit}~问题在学习者知道哪个奖励与哪个动作相关联的时更容易
\gls{bandit}~问题在学习者知道哪个奖励与哪个动作相关联的时候,是更容易的
在一般的\gls{RL}场景中,高奖励或低奖励可能是由最近的动作或很久以前的动作引起的。
术语\firstgls{contextual_bandit}指的是在一些输入变量可以通知决定的上下文中采取动作的情况。
例如,我们至少知道用户身份,并且我们要选择一个项目。
Expand Down
4 changes: 2 additions & 2 deletions Chapter14/autoencoders.tex
Original file line number Diff line number Diff line change
Expand Up @@ -364,7 +364,7 @@ \subsection{\glsentrytext{score}估计}
这类模型将在\secref{sec:gaussian_bernoulli_rbms}给出更详细的介绍;对于现在的讨论,我们只需知道这个模型能显式的给出$p_{\text{model}}(\Vx; \Vtheta)$
当~\glssymbol{RBM}~使用\firstgls{denoising_score_matching}算法~\citep{Kingma+LeCun-2010-small}训练时,它的学习算法与训练对应的\gls{DAE}是等价的。
在一个确定的噪声水平下,\gls{regularization}的\gls{score_matching}不是一致估计量;相反它会恢复分布的一个模糊版本。
然而,当噪声水平趋向于0且训练样本数趋向与无穷时,一致性就会恢复。
然而,当噪声水平趋向于0且训练样本数趋向于无穷时,一致性就会恢复。
我们将会在\secref{sec:denoising_score_matching}更详细地讨论\gls{denoising_score_matching}。


Expand Down Expand Up @@ -475,7 +475,7 @@ \section{使用\glsentrytext{AE}学习\glsentrytext{manifold}}
所有\gls{AE}的训练过程涉及两种推动力的折衷:
\begin{enumerate}
\item 学习训练样本$\Vx$\gls{representation} $\Vh$使得$\Vx$能通过\gls{decoder}近似地从$\Vh$中恢复。
$\Vx$是从训练数据挑出的这一事实很关键,因为这意味着在\gls{AE}不需要成功\gls{reconstruction}不属于数据生成分布下的输入。
$\Vx$是从训练数据挑出的这一事实很关键,因为这意味着\gls{AE}不需要成功\gls{reconstruction}不属于数据生成分布下的输入。
\item 满足约束或正则惩罚。
这可以是限制\gls{AE}\gls{capacity}的架构约束,也可以是加入到\gls{reconstruction}代价的一个正则项。
这些技术一般倾向那些对输入较不敏感的解。
Expand Down
2 changes: 1 addition & 1 deletion Chapter16/structured_probabilistic_modelling.tex
Original file line number Diff line number Diff line change
Expand Up @@ -267,7 +267,7 @@ \subsection{\glsentrytext{directed_model}}
假设我们采用从第$0$分钟到第$10$分钟每$6$秒一块的方式离散化地表示时间。
这使得$\RSt_0$$\RSt_1$$\RSt_2$都是一个有$100$个取值可能的离散变量。
如果我们尝试着用一个表来表示$p(\RSt_0, \RSt_1, \RSt_2)$,那么我们需要存储$999,999$个值
(100个$\RSt_0$的可能取值 $\times$ $\RSt_1$的可能取值 $\times$ 100个$\RSt_2$的可能取值 减去1,由于存在所有的概率之和为$1$的限制,所以其中有$1$个值的存储是多余的)。
(100个$\RSt_0$的可能取值 $\times$ 100个$\RSt_1$的可能取值 $\times$ 100个$\RSt_2$的可能取值 减去1,由于存在所有的概率之和为$1$的限制,所以其中有$1$个值的存储是多余的)。
反之,如果我们用一个表来记录每一种条件概率分布,那么表中记录$\RSt_0$的分布需要存储$99$个值,给定$\RSt_0$情况下$\RSt_1$的分布需要存储9900个值,给定$\RSt_1$情况下$\RSt_2$的分布也需要存储$9900$个值。
加起来总共需要存储$19, 899$个值。
这意味着使用\gls{directed_graphical_model}将参数的个数减少了超过$50$倍!
Expand Down
2 changes: 1 addition & 1 deletion Chapter20/deep_generative_models.tex
Original file line number Diff line number Diff line change
Expand Up @@ -1815,7 +1815,7 @@ \subsection{夹合与条件采样}
\subsection{回退训练过程}
\label{sec:walk_back_training_procedure}
回退训练过程由~\citet{Bengio-et-al-NIPS2013-small} 等人提出,作为一种加速\gls{DAE}生成训练收敛的方法。
不像执行一步编码-解码重建,该过程有代替的多个随机编码-解码步骤组成(如在生成\gls{markov_chain}中),以训练样本初始化(正如在\secref{sec:stochastic_maximum_likelihood_and_contrastive_divergence}中描述的\gls{contrastive_divergence}算法),并惩罚最后的概率重建(或沿途的所有重建)。
不像执行一步编码-解码重建,该过程由交替的多个随机编码-解码步骤组成(如在生成\gls{markov_chain}中),以训练样本初始化(正如在\secref{sec:stochastic_maximum_likelihood_and_contrastive_divergence}中描述的\gls{contrastive_divergence}算法),并惩罚最后的概率重建(或沿途的所有重建)。

训练$k$个步骤与训练一个步骤是等价的(在实现相同稳态分布的意义上),但是实际上可以更有效地去除来自数据的伪模式。

Expand Down
8 changes: 4 additions & 4 deletions Chapter5/machine_learning_basics.tex
Original file line number Diff line number Diff line change
Expand Up @@ -442,7 +442,7 @@ \section{\glsentrytext{capacity}、\glsentrytext{overfitting}和\glsentrytext{un
\gls{capacity}高的模型可能会过拟合,因为记住了不适用于\gls{test_set}的\gls{training_set}性质。

一种控制训练算法容量的方法是选择\firstgls{hypothesis_space},即学习算法可以选择为解决方案的函数集。
例如,\gls{linear_regression}函数将关于其输入的所有线性函数作为假设空间
例如,\gls{linear_regression}算法将关于其输入的所有线性函数作为假设空间
广义\gls{linear_regression}的假设空间包括多项式函数,而非仅有线性函数。
这样做就增加了模型的容量。

Expand Down Expand Up @@ -1556,7 +1556,7 @@ \subsection{\glsentrytext{PCA}}
这表明$\Vz$的协方差满足对角的要求:
\begin{align}
\text{Var}[\Vz] &= \frac{1}{m-1} \MZ^\Tsp\MZ \\
&= \frac{1}{m-1} \MW^\Tsp \MX^\Tsp \MX^\Tsp \MW \\
&= \frac{1}{m-1} \MW^\Tsp \MX^\Tsp \MX \MW \\
&= \frac{1}{m-1} \MW^\Tsp\MW \VSigma^2 \MW^\Tsp\MW \\
&= \frac{1}{m-1} \VSigma^2 ,
\end{align}
Expand Down Expand Up @@ -1680,7 +1680,7 @@ \section{\glsentrytext{SGD}}
很多核学习算法需要构建一个$m\times m$的矩阵$G_{i,j}=k(\Vx^{(i)}, \Vx^{(j)})$
构建这个矩阵的计算量是$O(m^2)$
\gls{dataset}是几十亿个\gls{example:chap5}时,这个计算量是不能接受的。
在学术界,\gls{DL}从2006年开始收到关注的原因是,在数以万计\gls{example:chap5}的中等规模\gls{dataset}上,\gls{DL}在新\gls{example:chap5}上比当时很多热门算法泛化得更好。
在学术界,\gls{DL}从2006年开始受到关注的原因是,在数以万计\gls{example:chap5}的中等规模\gls{dataset}上,\gls{DL}在新\gls{example:chap5}上比当时很多热门算法泛化得更好。
不久后,\gls{DL}在工业界受到了更多的关注,因为其提供了一种训练大\gls{dataset}上的非线性模型的可扩展方式。

我们将会在\chapref{chap:optimization_for_training_deep_models}继续探讨\gls{SGD}及其很多改进方法。
Expand Down Expand Up @@ -1800,7 +1800,7 @@ \subsection{局部不变性和平滑\glsentrytext{regularization}}
这里,我们解释为什么仅依靠平滑先验不足以应对这类任务。

有许多不同的方法来显式或隐式地表示学习函数应该具有光滑或局部不变的先验。
所有这些不同的方法都旨在鼓励学习过程能够学习出函数$f^*$对于大多数设置$\Vx$和小变动$\epsilon$,都满足条件
所有这些不同的方法都旨在鼓励学习过程能够学习出函数$f^*$对于大多数设置$\Vx$和小变动$\epsilon$,都满足条件
\begin{equation}
f^*(\Vx) \approx f^*(\Vx + \epsilon).
\end{equation}
Expand Down
2 changes: 1 addition & 1 deletion Chapter8/optimization_for_training_deep_models.tex
Original file line number Diff line number Diff line change
Expand Up @@ -795,7 +795,7 @@ \subsection{\glsentrytext{SGD}}
温和的振荡是良好的,容易在训练随机\gls{cost_function}(例如使用\,\gls{dropout}\,\gls{cost_function})时出现。
如果\gls{learning_rate}太小,那么学习过程会很缓慢。
如果初始\gls{learning_rate}太低,那么学习可能会卡在一个相当高的\gls{cost}值。
通常,就总训练时间和最终\gls{cost}值而言,最优初始\gls{learning_rate}的效果会好于大约迭代$100$次左右后最佳的效果
通常,就总训练时间和最终\gls{cost}值而言,最优初始\gls{learning_rate}会高于大约迭代$100$次左右后达到最佳效果的\gls{learning_rate}
因此,通常最好是检测最早的几轮迭代,选择一个比在效果上表现最佳的\gls{learning_rate}更大的\gls{learning_rate},但又不能太大导致严重的震荡。

% 287 mid
Expand Down
28 changes: 14 additions & 14 deletions docs/_posts/2016-12-05-Chapter5_machine_learning_basics.md
Original file line number Diff line number Diff line change
Expand Up @@ -447,7 +447,7 @@ Iris(鸢尾花卉)数据集~{cite?}是统计学家和机器学习研究者
容量高的模型可能会过拟合,因为记住了不适用于测试集的训练集性质。

一种控制训练算法容量的方法是选择假设空间,即学习算法可以选择为解决方案的函数集。
例如,线性回归函数将关于其输入的所有线性函数作为假设空间
例如,线性回归算法将关于其输入的所有线性函数作为假设空间
广义线性回归的假设空间包括多项式函数,而非仅有线性函数。
这样做就增加了模型的容量。

Expand Down Expand Up @@ -605,7 +605,7 @@ VC\,维定义为该分类器能够分类的训练样本的最大数目。
我们建立一组学习算法的偏好来达到这个要求。
当这些偏好和我们希望算法解决的学习问题相吻合时,性能会更好。

至此,我们具体讨论修改学习算法的方法只有,通过增加或减少学习算法可选假设空间的函数来增加或减少模型的容量
至此,我们具体讨论修改学习算法的方法只有,通过增加或减少学习算法可选假设空间的函数来增加或减少模型的表示容量
我们列举的一个具体示例是线性回归增加或减少多项式的次数。
目前为止讨论的观点都是过度简化的。

Expand Down Expand Up @@ -1564,7 +1564,7 @@ SVD\,有助于说明\,PCA\,后的$\text{Var}[\Vz]$是对角的。
这表明$\Vz$的协方差满足对角的要求:
\begin{align}
\text{Var}[\Vz] &= \frac{1}{m-1} \MZ^\Tsp\MZ \\
&= \frac{1}{m-1} \MW^\Tsp \MX^\Tsp \MX^\Tsp \MW \\
&= \frac{1}{m-1} \MW^\Tsp \MX^\Tsp \MX \MW \\
&= \frac{1}{m-1} \MW^\Tsp\MW \VSigma^2 \MW^\Tsp\MW \\
&= \frac{1}{m-1} \VSigma^2 ,
\end{align}
Expand Down Expand Up @@ -1690,7 +1690,7 @@ $k$-均值聚类初始化$k$个不同的中心点$\{\Vmu^{(1)},\dots,\Vmu^{(k)}\
很多核学习算法需要构建一个$m\times m$的矩阵$G_{i,j}=k(\Vx^{(i)}, \Vx^{(j)})$。
构建这个矩阵的计算量是$O(m^2)$。
当数据集是几十亿个样本时,这个计算量是不能接受的。
在学术界,深度学习从2006年开始收到关注的原因是,在数以万计样本的中等规模数据集上,深度学习在新样本上比当时很多热门算法泛化得更好。
在学术界,深度学习从2006年开始受到关注的原因是,在数以万计样本的中等规模数据集上,深度学习在新样本上比当时很多热门算法泛化得更好。
不久后,深度学习在工业界受到了更多的关注,因为其提供了一种训练大数据集上的非线性模型的可扩展方式。

我们将会在\chap?继续探讨随机梯度下降及其很多改进方法。
Expand Down Expand Up @@ -1769,14 +1769,14 @@ $k$-均值聚类初始化$k$个不同的中心点$\{\Vmu^{(1)},\dots,\Vmu^{(k)}\

由维数灾难带来的一个挑战是统计挑战。
如\fig?所示,统计挑战产生于$\Vx$的可能配置数目远大于训练样本的数目。
为了充分理解这个问题,我们假设输入空间如图所示被分成网格
低维时我们可以用由数据占据的少量网格去描述这个空间
泛化到新数据点时,通过检测和新输入在相同网格中的训练样本,我们可以判断如何处理新数据点。
例如,如果要估计某点$\Vx$处的概率密度,我们可以返回$\Vx$处单位体积内训练样本的数目除以训练样本的总数
如果我们希望对一个样本进行分类,我们可以返回相同网格中训练样本最多的类别
如果我们是做回归分析,我们可以平均该网格中样本对应的目标值
但是,如果该网格中没有样本,该怎么办呢?
因为在高维空间中参数配置数目远大于样本数目,大部分配置没有相关的样本。 %?? 配置
为了充分理解这个问题,我们假设输入空间如图所示被分成单元格
空间是低维时,我们可以用由大部分数据占据的少量单元格去描述这个空间
泛化到新数据点时,通过检测和新输入点在相同单元格中的训练样本,我们可以判断如何处理新数据点。
例如,如果要估计某点$\Vx$处的概率密度,我们可以返回$\Vx$处单位体积单元格内训练样本的数目除以训练样本的总数
如果我们希望对一个样本进行分类,我们可以返回相同单元格中训练样本最多的类别
如果我们是做回归分析,我们可以平均该单元格中样本对应的目标值
但是,如果该单元格中没有样本,该怎么办呢?
因为在高维空间中参数配置数目远大于样本数目,大部分单元格中没有样本。
我们如何能在这些新配置中找到一些有意义的东西呢?
许多传统机器学习算法只是简单地假设在一个新点的输出应大致和最接近的训练点的输出相同。

Expand All @@ -1790,7 +1790,7 @@ $k$-均值聚类初始化$k$个不同的中心点$\{\Vmu^{(1)},\dots,\Vmu^{(k)}\
\includegraphics[width=0.3\textwidth]{Chapter5/figures/curse_1d_color} & \includegraphics[width=0.3\textwidth]{Chapter5/figures/curse_2d_color} & \includegraphics[width=0.3\textwidth]{Chapter5/figures/curse_3d_color}
\end{tabular}
\fi
\caption{当数据的相关维度增大时(从左向右),我们感兴趣的配置数目会随之指数级增长。\emph{(左)}在这个一维的例子中,我们用一个变量来区分所感兴趣的仅仅$10$个区域。当每个区域都有足够的样本数时(图中每个样本对应了一个细胞),学习算法能够轻易地泛化得很好。泛化的一个直接方法是估计目标函数在每个区域的值(可能是在相邻区域之间插值)。\emph{(中)}在二维情况下,对每个变量区分$10$个不同的值更加困难。我们需要追踪$10\times10=100$个区域,至少需要很多样本来覆盖所有的区域。\emph{(右)}三维情况下,区域数量增加到了$10^3=1000$,至少需要那么多的样本。对于需要区分的$d$维以及$v$个值来说,我们需要$O(v^d)$个区域和样本。这就是维数灾难的一个示例。感谢由Nicolas Chapados提供的图片。}
\caption{当数据的相关维度增大时(从左向右),我们感兴趣的配置数目会随之指数级增长。\emph{(左)}在这个一维的例子中,我们用一个变量来区分所感兴趣的$10$个区域。当每个区域都有足够的样本数时(每个区域对应图中的一个单元格),学习算法能够轻易地泛化得很好。泛化的一个直接方法是估计目标函数在每个区域的值(可能是在相邻区域之间插值)。\emph{(中)}在二维情况下,对每个变量区分$10$个不同的值更加困难。我们需要追踪$10\times10=100$个区域,至少需要很多样本来覆盖所有的区域。\emph{(右)}三维情况下,区域数量增加到了$10^3=1000$,至少需要那么多的样本。对于需要区分的$d$维以及$v$个值来说,我们需要$O(v^d)$个区域和样本。这就是维数灾难的一个示例。感谢由Nicolas Chapados提供的图片。}
\end{figure}

<!-- % -- 151 -- -->
Expand All @@ -1813,7 +1813,7 @@ $k$-均值聚类初始化$k$个不同的中心点$\{\Vmu^{(1)},\dots,\Vmu^{(k)}\
这里,我们解释为什么仅依靠平滑先验不足以应对这类任务。

有许多不同的方法来显式或隐式地表示学习函数应该具有光滑或局部不变的先验。
所有这些不同的方法都旨在鼓励学习过程能够学习出函数$f^*$对于大多数设置$\Vx$和小变动$\epsilon$,都满足条件
所有这些不同的方法都旨在鼓励学习过程能够学习出函数$f^*$对于大多数设置$\Vx$和小变动$\epsilon$,都满足条件
\begin{equation}
f^*(\Vx) \approx f^*(\Vx + \epsilon).
\end{equation}
Expand Down
Loading

0 comments on commit 8c5bb33

Please sign in to comment.