Skip to content

Commit

Permalink
bold keywords
Browse files Browse the repository at this point in the history
  • Loading branch information
szcf-weiya committed Jul 21, 2021
1 parent bb6b3b2 commit 8f4e5aa
Showing 1 changed file with 11 additions and 8 deletions.
Original file line number Diff line number Diff line change
@@ -1,19 +1,19 @@
# 7.4 训练误差率的optimism
# 7.4 训练误差率的 optimism

| 原文 | [The Elements of Statistical Learning](https://web.stanford.edu/~hastie/ElemStatLearn/printings/ESLII_print12.pdf#page=247) |
| ---- | ---------------------------------------- |
| 翻译 | szcf-weiya |
| 发布 | 2016-09-30 |
|更新|2019-07-27 12:07:49|
|更新|{{ git_revision_date }}|
|状态|Done|

讨论误差率的估计可能令人困惑,因为我们必须弄清楚哪些量是固定的哪些量是随机的.在我们继续之前,我们需要一些定义,详细阐述第 [7.2 节](7.2-Bias-Variance-and-Model-Complexity/index.html)的内容.给出训练集 $\cal{T}=\\{(x_1,y_1),(x_2,y_2),\ldots,(x_N,y_N)\\}$,模型 $\hat f$ 的泛化误差为
讨论误差率的估计可能令人困惑,因为我们必须弄清楚哪些量是固定的哪些量是随机的.在我们继续之前,我们需要一些定义,详细阐述第 [7.2 节](7.2-Bias-Variance-and-Model-Complexity/index.html)的内容.给出训练集 $\cT=\\{(x_1,y_1),(x_2,y_2),\ldots,(x_N,y_N)\\}$,模型 $\hat f$ **泛化误差 (generalization error)**

$$
\Err_{\cal T} = \mathrm E_{X^0,Y^0}[L(Y^0,\hat f(X^0))\mid {\cal T}]\tag{7.15}\label{7.15}
$$

注意到在表达式 $\eqref{7.15}$ 中训练集 $\cal T$ 是固定的.点 $(X^0,Y^0)$ 是新的测试点,从数据的联合分布 $F$ 中取的.对数据集平均得到期望误差
注意到在表达式 $\eqref{7.15}$ 中训练集 $\cal T$ 是固定的.点 $(X^0,Y^0)$ 是新的测试点,从数据的联合分布 $F$ 中取的.对数据集平均得到 **期望误差 (expected error)**

$$
\mathrm{Err} = \mathrm E_{\cal T}\mathrm E_{X^0,Y^0}[L(Y^0,\hat f(X^0))\mid {\cal T}]\tag{7.16}\label{7.16}
Expand All @@ -24,21 +24,21 @@ $$
!!! note "weiya 注:"
这里原文为 $\E_{\cal T}$,但结合上下文此处应为 $\Err_{\cal T}$.

现在一般地,训练误差
现在一般地,**训练误差 (training error)**

$$
\overline{\err} = \frac{1}{N}\sum\limits_{i=1}^NL(y_i,\hat f(x_i))\tag{7.17}\label{7.17}
$$

会比真实误差 $\Err\_{\cal T}$ 小,因为数据被同时用来拟合方法并且评估误差(见[练习 2.9](https://github.com/szcf-weiya/ESL-CN/issues/176)).拟合方法一般适应于训练数据,因此训练误差 $\overline{\err}$ 是对泛化误差 $\mathrm {Err}\_{\cal T}$过度的乐观估计.
会比真实误差 $\Err\_{\cal T}$ 小,因为数据被同时用来拟合方法并且评估误差(见[练习 2.9](https://github.com/szcf-weiya/ESL-CN/issues/176)).拟合方法一般适应于训练数据,因此 **表面误差 (apparent error)** 或训练误差 $\overline{\err}$ 是对泛化误差 $\mathrm {Err}\_{\cal T}$过度的乐观估计.

!!! note "weiya 注:Ex. 2.9"
已解决,详见 [Issue 176: Ex. 2.9](https://github.com/szcf-weiya/ESL-CN/issues/176).

部分差异是因为取值点的选取.值 $\Err_{\cal T}$ 可以看成是 **样本外 (extra-sample)** 误差,因为测试输入向量不需要与训练输入向量一致.当我们去关注 **样本内 (in-sample)** 误差,可以很简单地理解 $\overline{\err}$ 乐观估计的本质
部分差异是因为取值点的选取.值 $\Err_{\cal T}$ 可以看成是 **样本外误差 (extra-sample error)**,因为测试输入向量不需要与训练输入向量一致.当我们去关注 **样本内误差 (in-sample error)**,可以很简单地理解 $\overline{\err}$ 乐观估计的本质

$$
\Err_{in}=\frac{1}{N}\sum\limits_{i=1}^N\mathrm E_{Y^0}[L(Y_i^0,\hat f(x_i))\mid {\cal T}]\tag{7.18}\label{7.18}
\Err_{in}=\frac{1}{N}\sum_{i=1}^N\mathrm E_{Y^0}[L(Y_i^0,\hat f(x_i))\mid {\cal T}]\tag{7.18}\label{7.18}
$$

$Y^0$ 表示我们在每个训练点 $x_i,i=1,2,\ldots,N$ 处观测 $N$ 个新响应变量的值.我们定义 $\Err_{in}$ 与训练误差 $\overline{\err}$ 的差为 **乐观 (optimism)**
Expand Down Expand Up @@ -94,3 +94,6 @@ $$
相反地,将在本章后面描述的交叉验证以及自助法是对 **样本外 (extra-sample)** 误差 $\Err$ 直接估计的方法.这些一般工具可以用于任意损失函数以及非线性自适应拟合技巧.

样本内误差通常不是直接感兴趣的,因为特征的未来值不可能与它们训练集值一致.但是为了模型之间的比较,样本内误差是很方便的,并且经常能够有效地进行模型选择.原因在于误差的相对(而不是绝对)大小是我们所关心的.

!!! info "weiya 注:"
本节相似内容另见 Efron, B., & Hastie, T. (2016). Computer Age Statistical Inference. Cambridge University Press, 493. 一书中第 12.3 节。

0 comments on commit 8f4e5aa

Please sign in to comment.