原文 | The Elements of Statistical Learning |
---|---|
翻译 | szcf-weiya |
时间 | 2017-04-27:2017-04-27 |
更新 | 2019-08-17 18:38:07 |
状态 | Done |
18.3 节的方法使用
!!! note "weiya 注"
特征选择意味着选择变量(特征),在
回忆 3.4.2 节的 lasso,
!!! note "weiya 注:Recall" $$ \hat{\beta}^{lasso}=\underset{\beta}{\arg\min}\Big{\sum\limits_{i=1}^N(y_i-\beta_0-\sum\limits_{j=1}^px_{ij}\beta_j)^2+\lambda\sum\limits_{j=1}^p\vert\beta_j\vert\Big}\tag{3.52}\label{3.52} $$
我们写成了 \eqref{3.52} 的拉格朗日形式.正如这里讨论的,使用充分大的调整参数
在 3.8.1 节我们已经讨论了 LARS 算法,这是个计算所有
Lasso 回归可以通过对输出编码为
分类问题的更自然的方式是使用 lasso 惩罚来正则化逻辑斯蒂回归.文献中已经提出一些实现方法,包括类似 LARS(Park and Hastie,20072)的路径算法.因为路径是分段光滑但是是非线性的,精确的算法比 LARS 算法更慢,并且当
Friedman et al. (2010)3 提出了用于拟合
!!! note "weiya 注:Recall" $$ \Pr(G=k\mid X=x)=\frac{\exp(\beta_{k0}+x^T\beta_k)}{\sum_{\ell=1}^K\exp(\beta_{\ell0}+x^T\beta_\ell)}\tag{18.10}\label{18.10} $$
$$ \underset{{\beta_{0k},\beta_k\in R^p}1^K}{\max}\Big[\sum\limits{i=1}^N\log;\Pr(g_i\mid x_i)-\lambda\sum\limits_{k=1}^K\sum\limits_{j=1}^p\vert\beta_{kj}\vert\Big]\tag{18.19} $$
!!! note "weiya 注:Recall" $$ \underset{{\beta_{0k},\beta_k}1^K}{\max}\left[\sum\limits{i=1}^N\log;\Pr(g_i\mid x_i)-\frac{\lambda}{2}\sum\limits_{k=1}^K\Vert\beta_k\Vert\right]_2^2\tag{18.11}\label{18.11} $$
这与式子 \eqref{18.11} 相对应.这个算法通过 坐标轮换 (cyclical coordinate descent)(3.8.6 节)计算出了在预先选择的
白血病数据的正则化逻辑斯蒂回归路径.左图是 lasso 路径,右图是
$\alpha=0.8$ 的弹性网路径.在路径的终端(最左端),lasso 有 19 个非零系数,弹性网有 39 个非零系数.弹性网的平均效应导致比 lasso 更多的非零系数,但是规模更小.
在基因应用中,变量间通常有强相关关系;基因趋向于在分子通路上起作用.Lasso 惩罚某种程度上不受强相关的变量集的选择的影响(练习 3.28).另一方面,岭惩罚趋向于将相关变量的系数相互收缩(练习 3.29).弹性网 (elastic net) 惩罚 (Zou and Hastie, 20055) 是一种妥协的方式,其形式为
第二项鼓励高相关的特征进行平均,而第一项鼓励在平均特征系数中的稀疏解.弹性网惩罚可以用到任何线性模型中,特别是用于回归或分类中.
因此上述的带弹性网惩罚的多项式问题变成
$$ \underset{{\beta_{0k,\beta_k\in \IR^p}}1^K}{\max}\Big[\sum\limits{i=1}^N\log\Pr(g_i\mid x_i)-\lambda\sum\limits_{k=1}^K\sum\limits_{j=1}^p(\alpha\vert\beta_{kj}\vert)+(1-\alpha)\beta_{kj}^2\Big]\tag{18.21} $$
参数
图 18.5 展示了在两类别白血病数据上 (Golub et al., 19996) lasso 和弹性网的系数路径.在 38 个样本上有 7129 个基因表达测量值,其中 27 个在类 ALL (急性淋巴细胞白血病) 中,11 个在类 AML (急性髓性白血病) 中.还有一个有 34 个样本的测试集
对于
蛋白质质谱已经成为分析血液中蛋白质的流行手段,并且可以用来诊断疾病或者理解潜在的过程.
对于每个血清样本
图 18.7 显示了取自 Adam et al. (2003)7 的一个例子.它显示了正常人和前列腺癌患者的平均光谱.
总共有 16898 个
首先对数据进行标准化(减去基准线并且正规化),并且我们关注
对数据充分拟合,lasso 回达到比较低的测试误差率.然而,这或许不会给出科学有用的解.理想情况下,蛋白质质谱法将生物样品分解为其组分蛋白,并且它们应该出现在质谱的波峰.lasso 不会对波峰进行特殊对待,所以并不奇怪只有一些非零的 lasso 权重分布在质谱波峰的附近.而且,同一蛋白质在不同质谱中会在不同的
为了解决这个问题,我们对每个质谱应用标准的波峰提取算法,在 217 个训练质谱中得到总数为 5178 个波峰.我们的想法是将所有病人的波峰的集合放在一起,因此构造了共同的波峰集.为了这个目的,我们对沿着
给定这些 728 个共同波峰,我们确定在每个质谱中出现的波峰,并且如果出现,确定波峰的高度.如果没有找到波峰,则设其高度为 0.这得到
对波峰应用 lasso 的预测结果展示在表 18.2 的最后一行中:它确实表现很好,但是没有原始波峰上的 lasso 一样好.然而,这个拟合模型对生物学家更合适,因为得到了 35 个波峰的位置,这可以用于后续研究.另一方面,结果表明在质谱的波峰间可能有有用的判别信息,并且表中第 (2) 行的 lasso 方法得到的位置也值得进一步检验.
在上一个例子中,特征有一个自然的顺序,这个顺序是由 mass-to-charge 比率
!!! note "weiya 注: 函数型数据 (functional data)" 函数型数据最明显的特征:
- 定量
- 频率
- 相似性
- 光滑性
参考 Giles Hooker 的 [A Short Course: Functional Data Analysis](http://faculty.bscb.cornell.edu/~hooker/ShortCourseHandout.pdf).
我们可以用关于
对于分类问题,我们讨论类似 12.6 节中带惩罚的判别分析.这用一个惩罚来显式地控制系数向量的光滑度.
上述方法趋向于对系数均匀地光滑.这里我们展示一种更自适应的策略来修改 lasso 惩罚使其考虑到特征的顺序.fused lasso (Tibshirani et al., 20059) 求解
这个准则关于
\eqref{18.22} 式的 差异惩罚 (difference penalty) 假设指标
这意味着对序列中的每一项有一个惩罚修正.
当预测矩阵
图 18.8 展示了取自 Tibshirani and Wang (2007)10 的例子.图中的数据来自 Comparative Genomic Hybridization (CGH) 数组,衡量在瘤样本和正常样本中每个基因的复制数近似的对数比(以
也存在二维版本的 fused lasso,其中参数都列在像素网格中,并且将惩罚应用到与目标像素的上下左右点的一阶差上.这对于图象的降噪或分类是很有用的.Friedman et al. (2007)11 提出了对于一维和二维 fused lasso 的快速广义坐标下降算法.
Footnotes
-
Rosset, S. and Zhu, J. (2007). Piecewise linear regularized solution paths, Annals of Statistics 35(3): 1012–1030. ↩
-
Park, M. Y. and Hastie, T. (2007). l1-regularization path algorithm for generalized linear models, Journal of the Royal Statistical Society Series B 69: 659–677. ↩
-
Friedman, J., Hastie, T. and Tibshirani, R. (2010). Regularization paths for generalized linear models via coordinate descent, Journal of Statistical Software 33(1): 1–22. ↩
-
Genkin, A., Lewis, D. and Madigan, D. (2007). Large-scale Bayesian logistic regression for text categorization, Technometrics 49(3): 291–304. ↩
-
Zou, H. and Hastie, T. (2005). Regularization and variable selection via the elastic net, Journal of the Royal Statistical Society Series B. 67(2): 301–320. ↩
-
Golub, T., Slonim, D., Tamayo, P., Huard, C., Gaasenbeek, M., Mesirov, J., Coller, H., Loh, M., Downing, J., Caligiuri, M., Bloomfield, C. and Lander, E. (1999). Molecular classification of cancer: Class discovery and class prediction by gene expression monitoring, Science 286: 531–536. ↩
-
Adam, B.-L., Qu, Y., Davis, J. W., Ward, M. D., Clements, M. A., Cazares, L. H., Semmes, O. J., Schellhammer, P. F., Yasui, Y., Feng, Z. and Wright, G. (2003). Serum protein fingerprinting coupled with a pattern-matching algorithm distinguishes prostate cancer from benign prostate hyperplasia and healthy mean, Cancer Research 63(10): 3609–3614. ↩
-
Petricoin, E. F., Ardekani, A. M., Hitt, B. A., Levine, P. J., Fusaro, V., Steinberg, S. M., Mills, G. B., Simone, C., Fishman, D. A., Kohn, E. and Liotta, L. A. (2002). Use of proteomic patterns in serum to identify ovarian cancer, Lancet 359: 572–577. ↩
-
Tibshirani, R., Hastie, T., Narasimhan, B. and Chu, G. (2003). Class prediction by nearest shrunken centroids, with applications to DNA microarrays, Statistical Science 18(1): 104–117. ↩
-
Tibshirani, R. and Wang, P. (2007). Spatial smoothing and hot spot detection for CGH data using the fused lasso, Biostatistics 9: 18–29. ↩
-
Friedman, J., Hastie, T., Hoefling, H. and Tibshirani, R. (2007). Pathwise coordinate optimization, Annals of Applied Statistics 2(1): 302–332. ↩