Skip to content

Commit

Permalink
proofread
Browse files Browse the repository at this point in the history
  • Loading branch information
szcf-weiya committed Sep 2, 2020
1 parent 454896a commit 97677dd
Showing 1 changed file with 11 additions and 8 deletions.
Original file line number Diff line number Diff line change
Expand Up @@ -12,7 +12,7 @@
为了量化这一点,考虑在单位立方体 $[-\frac{1}{2},\frac{1}{2}]^p$ 中均匀分布的 $N$ 个数据点.令 $R$ 为中心在原点的 1-最近邻的半径.则

$$
\text{median}(R) = v_p^{-\frac{1}{p}}(1-\frac{1}{2}^{1/N})^{1/p}\tag{13.7}
\text{median}(R) = v_p^{-\frac{1}{p}}\left(1-\frac{1}{2}^{1/N}\right)^{1/p}\tag{13.7}\label{13.7}
$$

其中 $v_pr^p$ 是 $p$ 维空间半径为 $r$ 的球的体积.
Expand Down Expand Up @@ -54,8 +54,11 @@ Friedman (1994a)[^1] 提出通过逐步剔除包含训练数据的盒子的边

在图 13.13 中,很明显邻域应当沿着垂直类别重心连线的方向拉伸.这个方向也与线性判别边界重合,而且是类别概率改变最少的方向.一般地,类别概率变化最大的方向不会与类别重心连线垂直(见 [4.3 节](../04-Linear-Methods-for-Classification/4.3-Linear-Discriminant-Analysis/index.html) 的图 4.9).

!!! note "Recall"
![](../img/04/fig4.9.png)

!!! question "weiya 注:"
这里有点困惑。文中首先说,“the direction in which the class probabilities change the least”,然后又说“this direction of maximum change”,一个“change the least”,一个“maximum change”,但按照上下文,指的应该是同一个方向?
这里有点困惑。文中首先说,“the direction in which the class probabilities change the least”,然后又说“this direction of maximum change”,一个“change the least”,一个“maximum change”,但按照上下文,指的应该是同一个方向?怀疑是否是作者的笔误,“maximum” 应为 “minimum”。

假设一个局部判别模型,局部 **类别内 (within-)****类别间 (between-)** 协方差矩阵的信息就足以确定邻居的最优形状.

Expand Down Expand Up @@ -87,7 +90,7 @@ $$

## 例子

这里我们在十维空间中生成两类别数据,这类似图 13.14 中二维例子.类别 1 中的 10 个变量独立的正态模型,但其半价平方需要大于 22.4 小于 40,而类别 2 中的预测变量是无约束的独立标准正态.每个类别有 250 个观测值.因此在全十维空间中,类别 1 几乎完全包围类别 2.
这里我们在十维空间中生成两类别数据,这类似图 13.14 中二维例子.类别 1 中的 10 个变量取自独立的标准正态分布,但其半径平方需要大于 22.4 小于 40,而类别 2 中的预测变量是无约束的独立标准正态.每个类别有 250 个观测值.因此在全十维空间中,类别 1 几乎完全包围类别 2.

这个例子中没有单独的噪声变量,最近邻子集选择可能不适用.在特征空间中的每个点,类别判别值沿着一个方向.然而,当我们在特征空间中移动时方向会发生变化,并且所有变量在这个空间中某个地方都是有用的.

Expand All @@ -97,19 +100,19 @@ $$

## 最近邻的全局维度降低

**判别自适应最近邻 (DANN)** 方法进行了局部维度降低——也就是,在每个查询点单独降低维度.在许多问题中,全局维度降低也是有用的,也就是,对原特征空间的最优子空间应用最近邻规则.举个例子,假设两个类别在四维特征空间中构成了两个 **嵌套的球体 (nested spheres)**,另外还有 6 个额外的噪声特征,其分布与类别独立.接着我们想找到最重要的四维子空间,并且在这个降维后的子空间中应用最近邻分类.Hastie and Tibshirani (1996a) [^2] 讨论了针对这个目标时 **判别自适应最近邻 (DANN)** 的变形.在每个查询点,计算类别间矩阵 $B_i$,然后在所有训练点上进行平均:
**判别自适应最近邻 (DANN)** 方法进行了局部维度降低——也就是,在每个查询点单独降低维度.在许多问题中,全局维度降低也是有用的,也就是,对原特征空间的最优子空间应用最近邻规则.举个例子,假设两个类别在四维特征空间中构成了两个 **嵌套的球体 (nested spheres)**,另外还有 6 个额外的噪声特征,其分布与类别独立.接着我们想找到最重要的四维子空间,并且在这个降维后的子空间中应用最近邻分类.Hastie and Tibshirani (1996a) [^2] 讨论了针对这个目标时 **判别自适应最近邻 (DANN)** 的变形.在每个查询点,计算类别间矩阵 $\B_i$,然后在所有训练点上进行平均:

$$
\bar\B = \frac 1N\sum_{i=1}^NB_i\,.\tag{13.10}
\bar\B = \frac 1N\sum_{i=1}^N\B_i\,.\tag{13.10}
$$

令 $e_1,e_2,\ldots,e_p$ 为 $\bar B$ 的特征向量,按照特征值 $\theta_k$ 从大到小排序.则这些特征向量张成了全局子空间降维的最优子空间.推导过程基于 $\bar B$ 的秩为 $L$ 的最优近似,$\bar \B_{[L]}=\sum_{\ell=1}^L\theta_\ell e_\ell e_\ell^T$,它是下式最小二乘问题的解
令 $e_1,e_2,\ldots,e_p$ 为 $\bar \B$ 的特征向量,按照特征值 $\theta_k$ 从大到小排序.则这些特征向量张成了全局子空间降维的最优子空间.推导过程基于 $\bar \B$ 的秩为 $L$ 的最优近似,$\bar \B_{[L]}=\sum_{\ell=1}^L\theta_\ell e_\ell e_\ell^T$,它是下式最小二乘问题的解

$$
\underset{\rank(\M)=L}{\min}\sum_{i=1}^N\trace[(\B_i - M)^2]\,.\tag{13.11}
\underset{\rank(\M)=L}{\min}\sum_{i=1}^N\trace[(\B_i - \M)^2]\,.\tag{13.11}\label{13.11}
$$

因为每个 $\B_i$ 包含的信息有 (a) 局部判别子空间 (b) 子空间差异的强度,(13.11) 可以看成是通过加权最小二乘寻找 $N$ 个子空间序列的秩为 $L$ 的最优子空间近似([练习 13.5](https://github.com/szcf-weiya/ESL-CN/issues/170)).
因为每个 $\B_i$ 包含的信息有 (a) 局部判别子空间 (b) 子空间差异的强度,\eqref{13.11} 可以看成是通过加权最小二乘寻找 $N$ 个子空间序列的秩为 $L$ 的最优子空间近似([练习 13.5](https://github.com/szcf-weiya/ESL-CN/issues/170)).

上面提到的四维球体例子,Hastie and Tibshirani (1996a)[^2] 进行了研究,四个特征值 $\theta_\ell$ 很大(其特征向量几乎张成了感兴趣的子空间),并且剩下的 6 个接近为 0.操作上,我们将数据投影到该四维子空间中,接着应用最近邻分类.在 13.3.2 节中的卫星图象分类例子,图 13.8 中标签为 `DANN` 的方法采用全局降维子空间的 5 最近邻. Duan and Li (1991)[^5] 的 sliced inverse regression 方法与这个方法也有些联系.他们在回归设定中采用类似的想法,但是进行全局的计算,而不是局部的.他们假设并利用特征分布的球对称性来估计感兴趣的子空间.

Expand Down

0 comments on commit 97677dd

Please sign in to comment.