Skip to content

Commit

Permalink
fix typo
Browse files Browse the repository at this point in the history
  • Loading branch information
szcf-weiya committed Dec 19, 2018
1 parent 8de9418 commit e35330e
Showing 1 changed file with 1 addition and 1 deletion.
Original file line number Diff line number Diff line change
Expand Up @@ -126,7 +126,7 @@ $k$-最近邻平均的方法实际上是对定量的输出变量 $Y$ 的回归

另一方面,$k$-最近邻过程似乎不非常依赖任何关于数据的假设,而且可以适用于任何情形。然而,判别边界的任何特定的分区都依赖几个输入点和它们的特定位置,而且因此左右摇摆不稳定——高方差和低偏差。

每种方法都有各自处理得最好的情形;特别地,线性回归更适合上面介绍的情形 $1$,而最邻近方法最适合情形 $2$。是来揭露困难的时候了。事实上数据是从介于两种情形的模型中模拟出来的,但是更接近于情形 $2$。首先,我们从双变量高斯分布 $(N(1,0)^T,\bf{I})$ 中产生 $10$ 个均值 $m_k$,标记此类为蓝色。类似地,从双变量高斯分布 $(N(0,1)^T,\bf{I})$ 中产生 $10$ 个均值并标记此类为橘黄色。然后对每一类按照下面方式产生 $100$ 个观测:对于每个观测,我们以 $1/10$ 的概率随机选择一个 $m_k$,然后产生 $N(m_k,\bf{I}/5)$,因此对于每一类引出了一个高斯分布簇的混合。图 2.4 显示了从该模型产生 $10000$ 个新观测的的分类结果,我们比较最小二乘法和一系列 $k$ 值对应的 $k$-最近邻的结果。
每种方法都有各自处理得最好的情形;特别地,线性回归更适合上面介绍的情形 $1$,而最邻近方法最适合情形 $2$。是来揭露困难的时候了。事实上数据是从介于两种情形的模型中模拟出来的,但是更接近于情形 $2$。首先,我们从双变量高斯分布 $N((1,0)^T,\bf{I})$ 中产生 $10$ 个均值 $m_k$,标记此类为蓝色。类似地,从双变量高斯分布 $N((0,1)^T,\bf{I})$ 中产生 $10$ 个均值并标记此类为橘黄色。然后对每一类按照下面方式产生 $100$ 个观测:对于每个观测,我们以 $1/10$ 的概率随机选择一个 $m_k$,然后产生 $N(m_k,\bf{I}/5)$,因此对于每一类引出了一个高斯分布簇的混合。图 2.4 显示了从该模型产生 $10000$ 个新观测的的分类结果,我们比较最小二乘法和一系列 $k$ 值对应的 $k$-最近邻的结果。

![](../img/02/fig2.4.png)

Expand Down

0 comments on commit e35330e

Please sign in to comment.