Skip to content

Commit

Permalink
add note to answer http://disq.us/p/2gulaaf
Browse files Browse the repository at this point in the history
  • Loading branch information
szcf-weiya committed May 6, 2021
1 parent 7fa6dfe commit 5bc7cb6
Show file tree
Hide file tree
Showing 3 changed files with 58 additions and 8 deletions.
Original file line number Diff line number Diff line change
Expand Up @@ -4,7 +4,7 @@
| ---- | ---------------------------------------- |
| 翻译 | szcf-weiya |
| 时间 | 2017-08-28&2018-01-26 |
|更新|2019-04-12|
|更新|2021-05-06 22:01:56|
|状态 | Done|

这些分类器是 **基于存储的 (memory-based)**,并且不需要拟合模型.给定查询点 $x_0$,找到 $k$ 个距离 $x_0$ 最近的训练点 $x_{(r)}, r=1,\ldots,k$,接着在这 $k$ 个最近邻中采用少数服从多数的方法进行分类.对于重复点,随机地将它们分开.为了简便起见,假设所有的特征是实值的,我们在特征空间中采用欧氏距离
Expand All @@ -25,6 +25,27 @@ $$

因为最近邻仅仅用到离查询点近的训练点,1-最近邻的偏差通常很低,但是方差很高.Cover and Hart(1967)[^1]证明了一个很著名的结果,1-最近邻分类器的误差率渐近地不会高于两倍的贝叶斯误差率.证明的大致思想如下(采用平方误差损失).假设查询点刚好与其中一个训练点重合,则偏差为 0.如果特征空间的维数固定,且训练数据密集地充满空间.则贝叶斯误差恰恰是 Bernoulli 随机变量的方差,而 1-最近邻的误差是 Bernoulli 随机变量方差的两倍,对训练和查询目标各自贡献了一份.

!!! note "weiya 注:"
假设查询点 $x_0$ 与训练点 $x_i$ 重合,则 1NN 的判别规则为
$$
\hat y_0^{\mathrm{1NN}} = y_i\,,
$$
则其(期望)平方误差为
\begin{align*}
\E(\hat y_0^{\mathrm{1NN}} - y_0)^2 &= \E(y_i - y_0)^2 \\
&= \E(y_i - \E y_i + \E y_0 - y_0)^2\qquad \text{因为 }\E y_i = \E y_0\\
&= \E(y_i - \E y_i)^2 + \E(y_0 -\E y_0)^2 + 2\E(y_i-\E y_i)(y_0 - \E y_0)\\
&= 2\Var(y_0)\qquad \text{因为 $y_0$ 和 $y_i$ 独立同分布}\,.
\end{align*}
而在平方误差意义下 Bayes 的判别规则为
$$
\hat y_0^{\mathrm{Bayes}} = \E y_i\,,
$$
则其误差为
$$
\E(\hat y_0^{\mathrm{Bayes}} - y_0)^2 = \Var(y_0)\,.
$$

对于误分类损失,我们在下面给出更多的细节.令 $k^\*$ 为 $x$ 点处的优势类别,而 $p_k(x)$ 是类别 $k$ 的真实条件概率.则

$$
Expand All @@ -38,7 +59,34 @@ $$
\end{align}
$$

渐近的 1-最近邻误差率是一个随机规则;我们以概率 $p_k(x),k=1,\ldots,K$ 随机选择类别和测试点.对于$K=2$,1-最近邻误差率为 $2p_{k^\*}(x)(1-p_{k^\*}(x))\le 2(1-p_{k^\*}(x))$ (两倍的贝叶斯误差率).更一般地,可以证明([练习 13.3](https://github.com/szcf-weiya/ESL-CN/issues/129)
渐近的 1-最近邻误差率是一个随机规则;我们以概率 $p_k(x),k=1,\ldots,K$ 随机选择类别和测试点.对于$K=2$,1-最近邻误差率为 $2p_{k^\*}(x)(1-p_{k^\*}(x))\le 2(1-p_{k^\*}(x))$ (两倍的贝叶斯误差率).

!!! note "weiya 注:"
同上,1NN 的判别规则为
$$
\hat y_0^{\mathrm{1NN}} = y_i\,,
$$
但在误分类损失下,其误差为
\begin{align*}
\E 1\{y_i\neq y_0\} &= \Pr(y_i\neq y_0)\\
&=\sum_{k=1}^K\Pr(y_0=k)\Pr(y_i\neq k)\qquad \text{$y_0$ 和 $y_i$ 独立}\\
&=\sum_{k=1}^K\Pr(y_0=k)\Pr(y_0\neq k)\qquad \text{$y_0$ 和 $y_i$ 同分布}\\
&=\sum_{k=1}^Kp_k(x)(1-p_k(x))\,,
\end{align*}
当 $K=2$ 时,有 $p_1(x)+p_2(x)=1$,则
$$
\sum_{k=1}^2p_k(x)(1-p_k(x)) = 2p_1(x)p_2(x) = 2p_{k^\star}(x)(1-p_{k^\star}(x))\,.
$$
而 Bayes rule 在误分类损失下的规则为
$$
\hat y_0^{\mathrm{Bayes}} = \argmax_kp_k(x)\triangleq k^\star\,,
$$
且误差为
$$
\Pr(\hat y_0^{\mathrm{Bayes}}\neq y_0) = 1-p_{k^\star}(x)\,.
$$

更一般地,可以证明([练习 13.3](https://github.com/szcf-weiya/ESL-CN/issues/129)

$$
\sum\limits_{k=1}^Kp_k(x)(1-p_k(x))\le 2(1-p_{k*}(x))-\frac{K}{K-1}(1-p_{k^*}(x))^2\tag{13.5}
Expand Down
8 changes: 5 additions & 3 deletions docs/js/mathjax.js
Original file line number Diff line number Diff line change
Expand Up @@ -65,11 +65,13 @@ window.MathJax = {
cosh: "{\\mathrm{cosh}\\;}",
tanh: "{\\mathrm{tanh}}",
arg: "{\\mathrm{arg}\\;}",
max: "{\\mathrm{max}}",
min: "{\\mathrm{min}}",
RSS: "{\\mathrm{RSS}}",
PRSS: "{\\mathrm{PRSS}}",
argmin: "{\\mathrm{argmin}}",
// argmin: "{\\mathrm{argmin}}",
// argmax: "{\\mathrm{argmax}}",
// argmax: "{\\operatorname\{argmax\}}",
argmin: "{\\mathop\{\\operatorname\{argmin\}\}}",
argmax: "{\\mathop\{\\operatorname\{argmax\}\}}",
Ave: "{\\mathrm{Ave}}",
ave: "{\\mathrm{ave}}",
Test: "{\\mathrm{Test}}",
Expand Down
6 changes: 3 additions & 3 deletions docs/notes/SVM/skin-of-the-orange.md
Original file line number Diff line number Diff line change
Expand Up @@ -130,8 +130,8 @@ calcErr <- function(model, n = 1000, nrep = 50, num_noise = 0, method = "SVM")
首先介绍 **贝叶斯检验 (Bayes Test)**,令 $X$ 是观测向量,我们要确定其分类,$w_1$ 或 $w_2$,设 $q_i(X)$ 是给定 $X$ 时 $w_i$ 的后验概率,则判别规则可写成

$$
\DeclareMathOperator*{olessgtr}{\lessgtr}
q_1(X) \olessgtr\limits_{w_2}^{w_1} q_2(X).
\DeclareMathOperator*{ogtrless}{\gtrless}
q_1(X) \ogtrless\limits_{w_2}^{w_1} q_2(X).
$$

设 $w_i$ 的先验为 $P_i$,条件密度函数为 $p_i(X)$,则根据贝叶斯定理
Expand All @@ -143,7 +143,7 @@ $$
其中 $p(X)$ 为混合密度函数,有

$$
P_1p_1(X) \olessgtr\limits_{w_2}^{w_1} P_2p_2(X).
P_1p_1(X) \ogtrless\limits_{w_2}^{w_1} P_2p_2(X).
$$

根据上述判别规则进行分类,我们有给定 $X$ 时的条件误差
Expand Down

0 comments on commit 5bc7cb6

Please sign in to comment.