proofread

C-Chan-1212 · Dec 15, 2020 · 90523bc · 90523bc
1 parent 1f63052
commit 90523bc
Showing 1 changed file with 8 additions and 4 deletions.
diff --git a/docs/04-Linear-Methods-for-Classification/4.3-Linear-Discriminant-Analysis.md b/docs/04-Linear-Methods-for-Classification/4.3-Linear-Discriminant-Analysis.md
@@ -136,12 +136,12 @@ $$
 
 作为下一主题的铺垫，我们简单地岔开去讨论 LDA，特别是 QDA 的计算．这些计算可以通过对角化 $\hat\ssigma$ 或 $\hat\ssigma_k$ 来简化．对于后者，假设我们对每一个计算特征值分解 $\hat\ssigma_k=\mathbf U_k\mathbf D_k\mathbf U_k^T$，其中 $\mathbf U_k$ 是 $p\times p$ 的正交矩阵，$\mathbf D_k$ 是正的特征值 $d_{k\ell}$ 组成的对角矩阵．则 $\delta_k(x)$ \eqref{4.12} 的组成成分是
 
-- $(x-\hat\mu_k)^T\hat\ssigma_k^{-1}(x-\hat\mu_k)=[U_k^T(x-\hat\mu_k)]^TD_k^{-1}[U_k^T(x-\hat\mu_k)]$
+- $(x-\hat\mu_k)^T\hat\ssigma_k^{-1}(x-\hat\mu_k)=[\U_k^T(x-\hat\mu_k)]^T\mathbf D_k^{-1}[\mathbf U_k^T(x-\hat\mu_k)]$
 - $\log\vert \hat\ssigma_k\vert=\sum_{\ell}\log d_{k\ell}$
 
 按照上面列出的计算步骤，LDA 分类器可以通过下面的步骤来实现
 
-- 对数据关于协方差矩阵 $\hat{\boldsymbol\Sigma}$ 球面化：$X^\*\leftarrow \mathbf D^{-\frac{1}{2}}\mathbf U^T\mathbf X$，其中 $\hat{\boldsymbol\Sigma}=\mathbf U\mathbf D\mathbf U^T$．$X^\*$ 的共同协方差矩阵变为单位阵．
+- 对数据关于协方差矩阵 $\hat{\boldsymbol\Sigma}$ 球面化：$X^\*\leftarrow \mathbf D^{-\frac{1}{2}}\mathbf U^T X$，其中 $\hat{\boldsymbol\Sigma}=\mathbf U\mathbf D\mathbf U^T$．$X^\*$ 的共同协方差矩阵变为单位阵．
 - 考虑类别先验概率 $\pi_k$ 的影响，在变换后的空间里面分到最近的类别形心．
 
 ## 降维线性判别分析
@@ -167,10 +167,14 @@ $$
 - 使用 $\mathbf W$ 特征值分解计算 $\mathbf M^\*=\mathbf M\mathbf W^{-\frac{1}{2}}$
 - 计算 $\mathbf M^\*$ 的协方差矩阵 $\mathbf B^\*$，（$\mathbf B$ 是 **组间 (between-class)** 协方差），以及特征值分解 $\mathbf B^\*=\mathbf V^\*\mathbf D_B{\mathbf V^\*}^T$．$\mathbf V^\*$ 的列 $v_\ell^\*$ 从第一个到最后一个依次定义了最优子空间的坐标．
 
-结合上述的操作，第 $\ell$ 个 **判别变量 (discriminant variable)** 由 $Z_\ell=v_\ell^TX$ 给出，其中 $v_\ell=W^{-\frac{1}{2}}v_\ell^\*$．
+结合上述的操作，第 $\ell$ 个 **判别变量 (discriminant variable)** 由 $Z_\ell=v_\ell^TX$ 给出，其中 $v_\ell=\W^{-\frac{1}{2}}v_\ell^\*$．
 
 !!! note "weiya 注："
-    结合 [Ex. 4.1](https://github.com/szcf-weiya/ESL-CN/issues/142) 的证明过程来理解上述算法．主要思想是先求 $\mathbf W^{-\frac 12}\mathbf B\mathbf W^{-\frac 12}$ 的特征向量 $v_\ell^\*$，则 $\mathbf W^{-1}\mathbf B$ 的特征向量为 $\mathbf W^{-\frac 12}v_\ell^*$．
+    结合 [Ex. 4.1](https://github.com/szcf-weiya/ESL-CN/issues/142) 的证明过程来理解上述算法．主要思想是先求 $\mathbf W^{-\frac 12}\mathbf B\mathbf W^{-\frac 12}$ 的特征向量 $v_\ell^\*$，则 $\mathbf W^{-1}\mathbf B$ 的特征向量为 $\mathbf W^{-\frac 12}v_\ell^*$．同时注意到我们有 $\Var(v_\ell^TX)=1$ 及 $\Cov(v_\ell^TX,v_k^TX)=0, \ell\neq k$，则判别函数 $\delta_k(z)$ 中的平方和项为
+    $$
+    (Z - \mu_k[Z])'(Z - \mu_k[Z]) = \sum_{\ell=1}^s(Z_\ell - \mu_{k}[Z_\ell])^2\,,
+    $$
+    其中 $s$ 为判别变量的个数，$\mu_k[Z_\ell] = v_\ell^T\mu_k$.
 
 Fisher 通过不同的方式得到这个分解，完全没有引用高斯分布．他提出下面的问题：