diff --git a/docs/14-Unsupervised-Learning/14.3-Cluster-Analysis.md b/docs/14-Unsupervised-Learning/14.3-Cluster-Analysis.md index 7396888047..681261f3ea 100644 --- a/docs/14-Unsupervised-Learning/14.3-Cluster-Analysis.md +++ b/docs/14-Unsupervised-Learning/14.3-Cluster-Analysis.md @@ -91,7 +91,7 @@ $$ ## 样品的不相似性 (object dissimilarity) -接着我们定义将 $p$ 个单属性不相似性 $d_j(x_{ij},d_{i'j}),j=1,2,\ldots,p$ 结合成一个单独的衡量整个不相似性的 $D(x_i,x_{i'})$,$D(x_i,x_{i'})$ 是两个有着各自属性值的点或观测 $(x_i,x_{i'})$ 之间的不相似性.这几乎总是通过加权平均(凸组合)的方式实现 +接着我们定义将 $p$ 个单属性不相似性 $d_j(x_{ij},x_{i'j}),j=1,2,\ldots,p$ 结合成一个单独的衡量整个不相似性的 $D(x_i,x_{i'})$,$D(x_i,x_{i'})$ 是两个有着各自属性值的点或观测 $(x_i,x_{i'})$ 之间的不相似性.这几乎总是通过加权平均(凸组合)的方式实现 $$ D(x_i,x_{i'})=\sum\limits_{j=1}^pw_j\cdot d_j(x_{ij},x_{i'j});\; \sum\limits_{j=1}^pw_j=1\tag{14.24}\label{14.24} $$ @@ -122,7 +122,7 @@ $$ > 图14.5. 模拟数据:左图对原始数据应用 K-means(K=2)分类.两种颜色表示类别的成员.右图,聚类之前对特征进行第一次标准化.这等价于使用特征权重 $1/[2\cdot var(X_j)]$.标准化模糊了两个能完美分离的类.注意到每张图的横纵坐标使用相同的单位长度. -尽管选择单个属性不相似性 $d_j(x_{ij},d_{x_{i'j}})$ 和它们的权重 $w_j$的 简单的通用方法会令人愉快,但是在每个单个问题中,没有替代仔细思考的方式.确定一个合适的不相似性的度量远比选择聚类算法来得重要.该问题的这个方面在聚类领域比算法本身强调得少,因为它取决于特定的领域知识,并且不适合一般性的研究. +尽管选择单个属性不相似性 $d_j(x_{ij},x_{i'j})$ 和它们的权重 $w_j$的 简单的通用方法会令人愉快,但是在每个单个问题中,没有替代仔细思考的方式.确定一个合适的不相似性的度量远比选择聚类算法来得重要.该问题的这个方面在聚类领域比算法本身强调得少,因为它取决于特定的领域知识,并且不适合一般性的研究. 最后,观测值经常在一个或多个属性中有 **缺失值 (missing values)**.将缺失值合并到不相似性的计算 \eqref{14.24} 中的最普遍方法是在计算观测 $x_i$ 和 $x_{i'}$ 之间的不相似性时,省略掉至少有一个缺失值的观测对 $x_{ij},x_{i'j}$.这个方法在两个观测都没有共同测量值的情况中是不适用的.这种情况下,两个观测都会从分析中删掉.或者,可以使用每个属性未缺失值的平均值或中位数来插补缺失值.对于类别型变量,如果两个物体在相同变量上具有缺失值的情况下将两个对象视为相似是合理的,则可以将缺失值仅仅考虑成另一个类别值. @@ -158,7 +158,7 @@ $$ $$ W(C)=T-B(C) $$ -并且最小化 $W(C)$ 等价于最大化 $B(C)$. +并且最小化 $W(C)$ 等价于最大化 $B(C)$. 通过组合优化的聚类分析原则上是直接的.简单地在 $N$ 个点分到 $K$ 个类中的所有可能分配上最小化 $W$ 或等价地最大化 $B$.不幸的是,这种穷举法的优化仅仅在非常小的数据集中才适用.不同的分配个数为(Jain and Dubes,1988[^1]) $$ @@ -450,4 +450,4 @@ $$ [^2]: Gersho, A. and Gray, R. (1992). Vector Quantization and Signal Compression, Kluwer Academic Publishers, Boston, MA. [^3]: Hartigan, J. A. and Wong, M. A. (1979). [(Algorithm AS 136] A k-means clustering algorithm (AS R39: 81v30 p355-356), Applied Statistics 28: 100–108. -[^10]: Macnaughton Smith, P., Williams, W., Dale, M. and Mockett, L. (1965). Dissimilarity analysis: a new technique of hierarchical subdivision, Nature 202: 1034–1035. \ No newline at end of file +[^10]: Macnaughton Smith, P., Williams, W., Dale, M. and Mockett, L. (1965). Dissimilarity analysis: a new technique of hierarchical subdivision, Nature 202: 1034–1035.