Skip to content

Commit

Permalink
proofread
Browse files Browse the repository at this point in the history
  • Loading branch information
szcf-weiya committed Dec 9, 2019
1 parent 9ce71c3 commit a5f4879
Showing 1 changed file with 6 additions and 6 deletions.
12 changes: 6 additions & 6 deletions docs/11-Neural-Networks/11.2-Projection-Pursuit-Regression.md
Original file line number Diff line number Diff line change
Expand Up @@ -16,27 +16,27 @@ $$

![](../img/11/fig11.1.png)

> 图 11.1. 2 个岭函数的透视图.(左图:)$g(V)=1/[1+exp(-5(V-0.5))]$ 其中 $V=(X_1+X_2)/\sqrt{2}$.(右图:)$g(V)=(V+0.1)sin(1/(V/3+0.1))$,其中$V=X_1$.
> 图 11.1. 2 个岭函数的透视图.(左图:)$g(V)=1/[1+\exp(-5(V-0.5))]$ 其中 $V=(X_1+X_2)/\sqrt{2}$.(右图:)$g(V)=(V+0.1)\sin(1/(V/3+0.1))$,其中 $V=X_1$.
式子 (11.1) 的 PPR 模型是非常一般的,因为形成线性组合的非线性函数的操作得到相当多的模型类型.举个例子,乘积 $X_1\cdot X_2$ 可以写成 $[(X_1+X_2)^2-(X_1-X_2)^2]/4$,高阶的乘积也可以类似地表示.
式子 \eqref{11.1} 的 PPR 模型是非常一般的,因为形成线性组合的非线性函数的操作得到相当多的模型类型.举个例子,乘积 $X_1\cdot X_2$ 可以写成 $[(X_1+X_2)^2-(X_1-X_2)^2]/4$,高阶的乘积也可以类似地表示.

实际上,如果 $M$ 任意大,选择合适的 $g_m$,PPR 模型可以很好地近似 $\IR^p$ 中任意的连续函数.这样的模型类别称为**通用近似 (universal approximator)**.然而这种一般性需要付出代价.拟合模型的解释性通常很困难,因为每个输入变量都以复杂且多位面的方式进入模型中.结果使得 PPR 模型对于预测非常有用,但是对于产生一个可理解的模型不是很有用.$M=1$ 模型是个例外,也是计量经济学中的**单指标模型 (single index model)**.这比线性回归模型更加一般,也提供了一个类似(线性回归模型)的解释.
实际上,如果 $M$ 任意大,选择合适的 $g_m$,PPR 模型可以很好地近似 $\IR^p$ 中任意的连续函数.这样的模型类别称为 **通用近似 (universal approximator)**.然而这种一般性需要付出代价.拟合模型的解释性通常很困难,因为每个输入变量都以复杂且多位面的方式进入模型中.结果使得 PPR 模型对于预测非常有用,但是对于产生一个可理解的模型不是很有用.$M=1$ 模型是个例外,也是计量经济学中的 **单指标模型 (single index model)**.这比线性回归模型更加一般,也提供了一个类似(线性回归模型)的解释.

给定训练点 $(x_i,y_i),i=1,2,\ldots,N$ 怎么拟合 PPR 模型?我们在函数 $g_m$ 和方向向量 $\omega_m,m=1,2,\ldots,M$ 上寻找误差函数的近似最小值
$$
\sum\limits_{i=1}^N[y_i-\sum\limits_{m=1}^Mg_m(\omega_m^Tx_i)]^2\tag{11.2}
\sum\limits_{i=1}^N\left[y_i-\sum\limits_{m=1}^Mg_m(\omega_m^Tx_i)\right]^2\tag{11.2}
$$
正如在其他光滑问题中一样,我们需要在 $g_m$ 上加上显式或隐式的限制来避免过拟合解.

仅仅考虑一项($M=1$,并且去掉下标).给定方向向量 $\omega$,我们得到导出变量 $v_i=\omega^Tx_i$.接着我们有一个一维光滑问题,而且我们可以应用任意散点图光滑器,比如光滑样条来得到 $g$ 的一个估计.

另一方面,给定 $g$,我们想要关于 $\omega$ 最小化 (11.2).高斯-牛顿搜索可以很方便地实现这个任务.这是一个拟牛顿法,丢掉了 Hessian 阵中关于 $g$ 二阶微分的项.可以很简单地按照下面导出.令 $\omega_{old}$ 为 $\omega$ 的当前估计.我们写成
另一方面,给定 $g$,我们想要关于 $\omega$ 最小化 \eqref{11.2}.高斯-牛顿搜索可以很方便地实现这个任务.这是一个拟牛顿法,丢掉了 Hessian 阵中关于 $g$ 二阶微分的项.可以很简单地按照下面导出.令 $\omega_{old}$ 为 $\omega$ 的当前估计.我们写成
$$
g(\omega^Tx_i)\approx g(\omega_{old}^Tx_i)+g'(\omega_{old}^Tx_i)(\omega-\omega_{old})^Tx_i\tag{11.3}
$$
得到
$$
\sum\limits_{i=1}^N[y_i-g(w^Tx_i)]^2\approx \sum\limits_{i=1}^Ng'(\omega_{old}^Tx_i)^2[(\omega_{old}^ Tx_i+\frac{y_i-g(\omega_{old}^Tx_i)}{g'(w^T_{old}x_i)})-w^Tx_i]^2\quad (11.4)
\sum\limits_{i=1}^N[y_i-g(w^Tx_i)]^2\approx \sum\limits_{i=1}^Ng'(\omega_{old}^Tx_i)^2\left[\left(\omega_{old}^ Tx_i+\frac{y_i-g(\omega_{old}^Tx_i)}{g'(w^T_{old}x_i)}\right)-w^Tx_i\right]^2\tag(11.4)
$$
为了最小化右边的项,我们在输入 $x_i$ 上对目标 $\omega_{old}^Tx_i+(y_i-g(\omega_{old}^Tx_i))/g'(\omega_{old}^Tx_i)$ 进行最小二乘回归,其中系数为 $g'(\omega_{old}^Tx_i)^2$ 并且没有截距(偏差)项.这样得到更新后的系数向量 $\omega_{new}$.

Expand Down

0 comments on commit a5f4879

Please sign in to comment.