Skip to content

Commit

Permalink
update eqref and proofread
Browse files Browse the repository at this point in the history
  • Loading branch information
szcf-weiya committed Apr 25, 2021
1 parent 3aefb0b commit 84f1df9
Show file tree
Hide file tree
Showing 2 changed files with 24 additions and 11 deletions.
Original file line number Diff line number Diff line change
Expand Up @@ -22,11 +22,11 @@
高维下的稀疏取样的另外一个后果是所有的样本点离样本的某一边很近.考虑在 $p$ 维以原点为中心的单位球中均匀分布的 $N$ 个数据点.假设我们考虑原点处的最近邻估计.距离原点最近的数据点距离的中位数由下式给出([练习 2.3](https://github.com/szcf-weiya/ESL-CN/issues/60)

$$
d(p,N)=(1-(\frac{1}{2})^{1/N})^{1/p}\tag{2.24}
d(p,N)=(1-(\frac{1}{2})^{1/N})^{1/p}\tag{2.24}\label{2.24}
$$

!!! note "weiya 注"
我们可以这样得到(2.24)式:
我们可以这样得到 \eqref{2.24} 式:
将数据点与原点的距离看成随机变量$X$,因为数据点均匀分布,则 $X$ 的分布函数为
$$
F(X < x)=x^p, \; x\in [0,1]
Expand All @@ -35,7 +35,7 @@ $$
$$
F_1(x)=1-(1-F(x))^N
$$
最近距离的中位数满足 $F_1(d(p,N))=\frac{1}{2}$,于是可以得到(2.24)式.
最近距离的中位数满足 $F_1(d(p,N))=\frac{1}{2}$,于是可以得到 \eqref{2.24} 式.

距离原点最近的数据点的距离的均值表达式更加复杂.当 $N=500,p=10,d(p,N)\approx 0.52$,比到边界的距离的一半还要大.因此大部分的数据点离样本空间的边界比其他任何的数据点更近.这里产生问题的原因是对于训练样本中靠近的边的预测更加困难.一定要从样本点的邻域外推而不是在中间插入.

Expand All @@ -57,7 +57,7 @@ $$
\end{align*}
$$

图 2.7 显示了这个设定.我们已经把 $\MSE$ 分解成两个部分,随着我们继续讨论,会越来越熟悉这两个部分,这两部分分别是方差和偏差平方.这一分解总是可行的的而且经常有用,并且这一分解被称为 **偏差-方差分解 (bias-variance decomposition)**.除非最近邻在 $0$ 处,这一例子中 $\hat{y}_0$ 会比 $f(0)$ 小,而且平均估计会向下偏.方差是因为 $1$-最近邻取样的方差.在低维度以及 $N=1000$ 情况下,最近邻非常接近 $0$,于是偏差和方差都会非常小.当维数增大,最近邻有从目标点远离的趋势,而且都会带来偏差跟方差.$p=10$ 时,超过 $99\%$ 的样本的最近邻距离原点大于 $0.5$.因此,当 $p$ 增长时,估计值多半有趋势趋于 $0$,因此 $\MSE$ 保持在 $1.0$ 附近,偏差也是如此,方差开始下降(这个例子的衍生).
图 2.7 显示了这个设定.我们已经把 $\MSE$ 分解成两个部分,随着我们继续讨论,会越来越熟悉这两个部分,这两部分分别是方差和偏差平方.这一分解总是可行的而且经常有用,并且这一分解被称为 **偏差-方差分解 (bias-variance decomposition)**.除非最近邻在 $0$ 处,这一例子中 $\hat{y}_0$ 会比 $f(0)$ 小,而且平均估计会向下偏.方差是因为 $1$-最近邻取样的方差.在低维度以及 $N=1000$ 情况下,最近邻非常接近 $0$,于是偏差和方差都会非常小.当维数增大,最近邻有从目标点远离的趋势,而且都会带来偏差跟方差.$p=10$ 时,超过 $99\%$ 的样本的最近邻距离原点大于 $0.5$.因此,当 $p$ 增长时,估计值多半有趋势趋于 $0$,因此 $\MSE$ 保持在 $1.0$ 附近,偏差也是如此,方差开始下降(这个例子的衍生).

![](../img/02/fig2.7.png)

Expand Down Expand Up @@ -87,7 +87,7 @@ $$
&={\color{red} {\E_{y_0\mid x_0}\varepsilon ^2+\E_{\cal T}(x_0^T\beta-\hat{y}_0)^2\qquad\qquad \because \E_{y_0\mid x_0}\varepsilon = 0}}\notag\\
&=\Var(y_0\mid x_0)+\E_{\cal T}[\hat{y}_0-\E_{\cal T}\hat{y}_0]^2+[\E_{\cal T}\hat{y}_0-x_0^T\beta]^2\notag\\
&=\Var(y_0\mid x_0)+\Var_{\cal T}(\hat{y}_0)+\Bias^2(\hat{y}_0)\notag\\
&=\sigma^2+E_{\cal T}x_0^T(\mathbf{X^TX})^{-1}x_0\sigma^2+0^2\qquad\qquad\tag{2.27}
&=\sigma^2+E_{\cal T}x_0^T(\mathbf{X^TX})^{-1}x_0\sigma^2+0^2\qquad\qquad\tag{2.27}\label{2.27}
\end{align}
$$

Expand All @@ -97,16 +97,29 @@ $$
\begin{align*}
\E_{x_0}\EPE(x_0)&\sim \E_{x_0}x_0^T\Cov(X)^{-1}x_0\sigma^2/N+\sigma^2\notag\\
&=\trace[\Cov(X)^{-1}\Cov(x_0)]\sigma^2/N+\sigma^2\notag\\
&=\sigma^2(p/N)+\sigma^2\qquad\qquad\tag{2.28}
&=\sigma^2(p/N)+\sigma^2\qquad\qquad\tag{2.28}\label{2.28}
\end{align*}
$$

我们可以看到 $\EPE$ 的期望作为 $p$ 的函数线性增长,斜率 $\sigma^2/N$.如果 $N$ 大且/或 $\sigma^2$ 小,方差的增长可以忽略(在确定情形下为 $0$).通过在拟合的模型的类别上插入一些强的限制,我们避免了维数的灾难.一些技巧细节在式 $(2.27)$$(2.28)$ 中,这也是源自[练习 2.5](https://github.com/szcf-weiya/ESL-CN/issues/160)
我们可以看到 $\EPE$ 的期望作为 $p$ 的函数线性增长,斜率 $\sigma^2/N$.如果 $N$ 大且/或 $\sigma^2$ 小,方差的增长可以忽略(在确定情形下为 $0$).通过在拟合的模型的类别上插入一些强的限制,我们避免了维数的灾难.式 \eqref{2.27}\eqref{2.28} 中部分技巧细节的推导另见[练习 2.5](https://github.com/szcf-weiya/ESL-CN/issues/160)

!!! info "Ex. 2.5"
已解决,详见 [Issue 160: Ex. 2.5](https://github.com/szcf-weiya/ESL-CN/issues/160).

图 2.9 在两种情形下比较 $1$-最近邻和最小二乘法,两种情形下形式均为 $Y=f(X)+\epsilon$,$X$ 和前面一样都是均匀分布的,而且$\epsilon\sim N(0,1)$.样本规模为 $N=500$.对于橙色曲线,$f(X)$ 关于第一个坐标是线性的,对于蓝色曲线,如图 2.8 中的立方.图中显示了相对于最小二乘而言,$1$-最近邻的相对 $\EPE$ 值.线性情况下大概是从 $2$ 开始.在这个情况下最小二乘是无偏的,而且上述讨论的 $\EPE$ 略高于 $\sigma^2=1$.$1$-最近邻的 $\EPE$ 总是大于 $2$,因为这种情形下 $\hat{f}_0$ 至少是 $\sigma^2$,而且随着维数增长比率增加,因为随着维数增加最近邻会远离目标点.对于立方体的情形,最小二乘是有偏的,使比率变得缓和.显然我们可以构造最小二乘的偏差主导方差的例子,然后 $1$-最近邻就会变成胜利者.
图 2.9 在两种情形下比较 $1$-最近邻和最小二乘法,两种情形下形式均为 $Y=f(X)+\epsilon$,$X$ 和前面一样都是均匀分布的,而且$\epsilon\sim N(0,1)$.样本规模为 $N=500$.对于橙色曲线,$f(X)$ 关于第一个坐标是线性的,对于蓝色曲线,如图 2.8 中的三次函数.图中显示了相对于最小二乘而言,$1$-最近邻的相对 $\EPE$ 值,线性情况下大概是从 $2$ 开始.在这种情况下最小二乘是无偏的,而且如上面所讨论的,$\EPE$ 略高于 $\sigma^2=1$.$1$-最近邻的 $\EPE$ 总是大于 $2$,因为这种情形下 $\hat{f}_0$ 的方差至少是 $\sigma^2$,而且随着维数增长比率增加,因为随着维数增加最近邻会远离目标点.

!!! note "weiya 注:"
对于 1NN,
$$
\EPE(x_0) = \sigma^2 + \Var_{\cal T}(\hat{y}_0)+\Bias^2(\hat{y}_0) \gtrsim \sigma^2 + \sigma^2 + c \ge 2\sigma^2
$$
而对于 OLS,
$$
\E_{x_0}\EPE(x_0) = \sigma^2(p/N) + \sigma^2 \approx \sigma^2
$$
则 EPE 比率大致为 2,又因为 1NN 中的方差项(第二项)随 $p$ 增大的速率大于 OLS 中方差项(第一项),则 EPE 比率也会缓慢随 $p$ 增长。

对于三次函数,最小二乘是有偏的,这使得比率变得缓和.显然我们可以构造最小二乘的偏差主导方差的例子,然后 $1$-最近邻就会变成胜利者.

![](../img/02/fig2.9.png)

Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -87,7 +87,7 @@ $$
$$

!!! note "weiya 注:"
根据[维基百科](https://en.wikipedia.org/wiki/Covariance_matrix),协方差矩阵的英文表达有,covariance matrix, variance-covariance matrix, dispersion matrix 等等. 经 [@fengxiang guo](http://disq.us/p/27ffai6) 提醒,为避免误解,统一翻译成协方差矩阵.
根据[维基百科](https://en.wikipedia.org/wiki/Covariance_matrix),协方差矩阵的英文表达有,covariance matrix, variance-covariance matrix, dispersion matrix 等等. 经 [@fengxiang guo](http://disq.us/p/27ffai6) 提醒,为避免误解,统一翻译成协方差矩阵.

一般通过下式来估计方差 $\sigma^2$

Expand Down Expand Up @@ -380,7 +380,7 @@ $\mathbf{QR}$ 分解表示了 $\mathbf{X}$ 列空间的一组方便的正交基
$$
\begin{align}
\hat{\beta}&=\mathbf{R^{-1}Q^Ty}\tag{3.32}\label{3.32} \\
\hat{\mathbf{y}}&=\mathbf{QQ^Ty}\tag{3.33}
\hat{\mathbf{y}}&=\mathbf{QQ^Ty}\tag{3.33}\label{3.33}
\end{align}
$$

Expand Down Expand Up @@ -435,4 +435,4 @@ $$

在 3.7 节我们继续讨论多重输出的问题,并且考虑需要合并回归的情形.

[^1]: Stamey, T., Kabalin, J., McNeal, J., Johnstone, I., Freiha, F., Redwine, E. and Yang, N. (1989). Prostate specific antigen in the diagnosis and treatment of adenocarcinoma of the prostate II radical prostatectomy treated patients, Journal of Urology 16: 1076–1083.
[^1]: Stamey, T., Kabalin, J., McNeal, J., Johnstone, I., Freiha, F., Redwine, E. and Yang, N. (1989). Prostate specific antigen in the diagnosis and treatment of adenocarcinoma of the prostate II radical prostatectomy treated patients, Journal of Urology 16: 1076–1083.

0 comments on commit 84f1df9

Please sign in to comment.