Skip to content

Commit

Permalink
fix mathrm err
Browse files Browse the repository at this point in the history
  • Loading branch information
szcf-weiya committed Nov 7, 2018
1 parent f1d8b54 commit a9f2658
Showing 1 changed file with 9 additions and 9 deletions.
Original file line number Diff line number Diff line change
@@ -1,13 +1,13 @@
# 7.9 VC维

| 原文 | [The Elements of Statistical Learning](../book/The Elements of Statistical Learning.pdf) |
| 原文 | [The Elements of Statistical Learning](../book/The Elements of Statistical Learning.pdf#page=256) |
| ---- | ---------------------------------------- |
| 翻译 | szcf-weiya |
| 时间 | 2017-02-19:2017-02-19 |
|更新|2018-01-05; 2018-01-07; 2018-05-05|

!!! note "更新笔记"
@2018-01-07 完成了图7.7的部分模拟,即AIC和BIC下kNN回归与分类的情形,其它情形待完成。具体模拟细节记录在了[这个 R Notebook](http://rmd.hohoweiya.xyz/sim7_7.html)中。
@2018-01-07 完成了图7.7的部分模拟,即 AIC 和 BIC 下 kNN 回归与分类的情形,其它情形待完成。具体模拟细节记录在了[这个 R Notebook](http://rmd.hohoweiya.xyz/sim7_7.html)中。

使用样本内误差估计的困难在于需要确定在拟合中使用的参数(或复杂度)个数 $d$。尽管 [7.6 节](7.6-The-Effective-Number-of-Parameters/index.html)引入的有效参数个数对部分非线性模型是有用的,但是不太普遍。Vapnik-Chervonenkis (VC) 理论提供了对复杂度更一般的度量,而且给出了相应的 optimism 估计。这里我们简短回顾这个理论。

Expand Down Expand Up @@ -37,8 +37,8 @@ Vapnik-Chervonenkis 维度是衡量函数类的复杂度的一种方式,它通

$$
\begin{align}
Err_{\cal T}&\le \overline{err} + \frac{\epsilon}{2}(1+\sqrt{1+\frac{4\cdot\overline{err}}{\epsilon}})\;(\text{二分类})\notag\\
Err_{\cal T}&\le \frac{\overline{err}}{(1-c\sqrt{\epsilon})_+}\; (\text{回归})\notag\\
\Err_{\cal T}&\le \overline{err} + \frac{\epsilon}{2}(1+\sqrt{1+\frac{4\cdot\overline{err}}{\epsilon}})\;(\text{二分类})\notag\\
\Err_{\cal T}&\le \frac{\overline{err}}{(1-c\sqrt{\epsilon})_+}\; (\text{回归})\notag\\
& \text{其中 }\epsilon=a_1\frac{h[\log(a_2N/h)+1]-\log(\eta/4)}{N}\notag\\
& 0<a_1\le 4,\;0<a_2\le 2\notag
\end{align}
Expand All @@ -47,23 +47,23 @@ $$

这些界对 $\\{f(x,\alpha)\\}$ 的所有成员都同时成立,而且选自 Cherkassky and Mulier (2007)[^1]。他们建议 $c=1$。对于回归他们建议 $a_1=a_2=1$,对于分类他们没有给出推荐,因为 $a_1=4,a_2=2$ 对应最坏的情形。它们也给出了回归的另一个实用 (practical) 的界
$$
Err_{\cal T}\le \overline{err}(1-\sqrt{\rho-\rho \mathrm{log}\rho}+\frac{\mathrm{log}N}{2N})^{-1}_+\tag{7.47}
\\Err_{\cal T}\le \overline{err}(1-\sqrt{\rho-\rho \mathrm{log}\rho}+\frac{\mathrm{log}N}{2N})^{-1}_+\tag{7.47}
$$
其中 $\rho=\frac{h}{N}$,不含调整常数。这个界表明随着$h$增大 $N$ 减小,optimism 会增大,这与式 (7.24) 给出的 AIC 调整值 $d/N$ 数值上是一致的。然而,(7.46) 结果更强:不是给出每个固定函数 $f(x,\alpha)$ 的 optimism 的期望值,而是给出对于所有函数 $f(x,\alpha)$ 的概率上限,也因此可以对函数类进行搜索。

Vapnik 的结构风险最小化 (SRM) 方法拟合嵌套的 VC 维递增 $h_1<h_2<\cdots$ 的模型序列,接着选择有最小上界的模型。
Vapnik 的结构风险最小化 (SRM) 方法拟合嵌套的 VC 维递增 $h_1 < h_2 < \cdots$ 的模型序列,接着选择有最小上界的模型。

我们注意到类似 (7.46) 中的上界通常是非常不精确的,但是这并不会妨碍它们成为模型选择的良好准则,其中相对(不是绝对)的测试误差的大小是重要的。这种方法的主要不足是计算类函数的 VC 维的困难。通常只能得到粗糙的 VC 维上界,这可能不是充分的。结构风险最小化程序可以成功运行的例子是支持向量分类器,将在 [12.2 节](../12-Support-Vector-Machines-and-Flexible-Discriminants/12.2-The-Support-Vector-Classifier/index.html)讨论。

## 例子(继续)

![](../img/07/fig7.7.png)

> 图 7.7. 在图 7.3 的四种情形下,用箱线图显示相对误差 $100\times [Err_{\cal T}(\hat\alpha)-min_\alpha Err_{\cal T}(\alpha)]/[max_\alpha Err_{\cal T}(\alpha)-min_\alpha Err_{\cal T}(\alpha)]$ 的分布。这是选择的模型相对于最优模型的误差。每个箱线图表示大小为 80 的 100 个训练集,误差是在大小为 10000 的测试集上计算的。
> 图 7.7. 在图 7.3 的四种情形下,用箱线图显示相对误差 $100\times [\Err_{\cal T}(\hat\alpha)-min_\alpha \Err_{\cal T}(\alpha)]/[max_\alpha \Err_{\cal T}(\alpha)-min_\alpha \Err_{\cal T}(\alpha)]$ 的分布。这是选择的模型相对于最优模型的误差。每个箱线图表示大小为 80 的 100 个训练集,误差是在大小为 10000 的测试集上计算的。
图 7.7 显示了当采用 AIC,BIC 和 SRM 来对图 7.3 的例子来选择模型大小的结果。对于标着 KNN 的例子,模型指标$\alpha$ 指的是邻居的个数,而对于标着 REG 的来说 $\alpha$ 为子集大小。采用每个选择方法(例如,AIC),我们估计最优模型 $\hat \alpha$ 并且在测试集上找到真实的预测误差 $Err_{\cal T}(\hat\alpha)$。对于同样的训练集,我们计算最优和最坏可能的模型选择的预测误差:$min_\alpha Err_{\cal T}(\alpha)$ 和 $max_\alpha Err_{\cal T}(\alpha)$。箱线图显示了下面值的分布
图 7.7 显示了当采用 AIC,BIC 和 SRM 来对图 7.3 的例子来选择模型大小的结果。对于标着 KNN 的例子,模型指标$\alpha$ 指的是邻居的个数,而对于标着 REG 的来说 $\alpha$ 为子集大小。采用每个选择方法(例如,AIC),我们估计最优模型 $\hat \alpha$ 并且在测试集上找到真实的预测误差 $\Err_{\cal T}(\hat\alpha)$。对于同样的训练集,我们计算最优和最坏可能的模型选择的预测误差:$min_\alpha \Err_{\cal T}(\alpha)$ 和 $max_\alpha \Err_{\cal T}(\alpha)$。箱线图显示了下面值的分布
$$
100\times \frac{Err_{\cal T}(\hat \alpha)-min_\alpha Err_{\cal T}(\alpha)}{max_\alpha Err_{\cal T}(\alpha)-min_\alpha Err_{\cal T}(\alpha)}
100\times \frac{\Err_{\cal T}(\hat \alpha)-min_\alpha \Err_{\cal T}(\alpha)}{max_\alpha \Err_{\cal T}(\alpha)-min_\alpha \Err_{\cal T}(\alpha)}
$$
它表示选定的模型相对于最优模型的误差。对于线性回归,模型复杂度由特征的个数度量;正如在 [7.5 节](7.5-Estimates-of-In-Sample-Prediction-Error/index.html)提到的那样,它低估了 $df​$,因为它没有考虑该大小下对最优模型的搜索。这对线性分类器的 VC 维也同样适用。对于 $k​$ 最近邻,模型复杂度取 $N/k​$。在加性误差模型回归模型下,这个可以证明为真正的有效自由度个数([练习 7.6](https://github.com/szcf-weiya/ESL-CN/issues/131));我们不知道它是否对应VC维。我们取(7.46)中常数为 $a_1=a_2=1​$;SRM 的结果随着不同的常数值而变化,而且这个选择给出了最有利的结果。我们运用另一个实用的界 (7.47) 来重复 SRM 的选择过程,并且得到几乎一样的结果。对于误分类误差,我们在最少限制的模型上(对于 KNN 取 $k=5​$,因为 $k=1​$ 会导致 0 训练误差)采用 $\hat\sigma_\varepsilon^2=[N/(N-d)]\cdot \overline{err}(\alpha)​$。AIC 准则对于四种情形都适用,尽管在 0-1 损失时缺少理论支撑。BIC 表现也近似一样,但 SRM 的表现很混合。

Expand Down

0 comments on commit a9f2658

Please sign in to comment.