Skip to content

Commit

Permalink
Browse files Browse the repository at this point in the history
  • Loading branch information
szcf-weiya committed Sep 18, 2021
1 parent 3605edd commit f9d5852
Showing 1 changed file with 5 additions and 5 deletions.
Original file line number Diff line number Diff line change
Expand Up @@ -4,7 +4,7 @@
| ---- | ---------------------------------------- |
| 翻译 | szcf-weiya |
| 发布 | 2018-03-01 |
| 更新 | 2020-01-13 21:53:17 |
| 更新 | {{ git_revision_date }} |
| 状态 | Done|


Expand All @@ -21,9 +21,9 @@
-l(Y,f(x))=\log(1+e^{-2Yf(x)})\tag{10.18}\label{10.18}
$$

尽管指数损失 \eqref{10.8} 和二项偏差 \eqref{10.18} 当应用到总体的联合分布时会得到同样的解,但对于有限的数据集并不一样.两个准则都是“边缘(margin) $yf(x)$ 的单调递减函数.在分类问题中(响应变量为 $-1/1$),$yf(x)$ 类似回归中的残差 $y-f(x)$.分类准则 $G(x)=\mathrm{sign}[f(x)]$ 表明有正边缘 $y_if(x_i)>0$ 的观测被分类正确,而有负边缘 $y_if(x_i)<0$ 的观测被错误分类.判别边界定义为 $f(x)=0$.分类算法的目标是得到尽可能频繁的正边缘.任何用于分类的损失标准应该惩罚负边缘比正边缘更重,因为正边缘的观测值已经被正确分类
尽管指数损失 \eqref{10.8} 和二项偏差 \eqref{10.18} 当应用到总体的联合分布时会得到同样的解,但对于有限的数据集并不一样.两个准则都是 **间隔 (margin)** $yf(x)$ 的单调递减函数.在分类问题中(响应变量为 $-1/1$),$yf(x)$ 类似回归中的残差 $y-f(x)$.分类准则 $G(x)=\mathrm{sign}[f(x)]$ 表明有正间隔 $y_if(x_i)>0$ 的观测被分类正确,而有负间隔 $y_if(x_i)<0$ 的观测被错误分类.判别边界定义为 $f(x)=0$.分类算法的目标是得到尽可能频繁的正间隔.任何用于分类的损失标准应该惩罚负间隔比正间隔更重,因为正间隔的观测值已经被正确分类

图 10.4 展示了指数 \eqref{10.8} 和二项偏差的标准作为边缘 $y\cdot f(x)$ 的函数的图象.也显示了误分类损失 $L(y,f(x))=I(y\cdot f(x) < 0)$,它给出了负边缘的单位惩罚,而对所有的正值没有惩罚.指数损失和二项偏差都可以看成是误分类损失的单调连续近似.它们不断地惩罚越来越大的负边际值,惩罚力度比它们回报越来越大的正边际值更重.它们的区别在于程度上.二项偏差的惩罚对于大的增加的负边缘线性增长,而指数标准对这样观测的影响指数增长.
图 10.4 展示了指数 \eqref{10.8} 和二项偏差的标准作为间隔 $y\cdot f(x)$ 的函数的图象.也显示了误分类损失 $L(y,f(x))=I(y\cdot f(x) < 0)$,它给出了负间隔的单位惩罚,而对所有的正值没有惩罚.指数损失和二项偏差都可以看成是误分类损失的单调连续近似.它们不断地惩罚越来越大的负边际值,惩罚力度比它们回报越来越大的正边际值更重.它们的区别在于程度上.二项偏差的惩罚对于大的增加的负间隔线性增长,而指数标准对这样观测的影响指数增长.

![](../img/10/fig10.4.png)

Expand Down Expand Up @@ -93,9 +93,9 @@ $$

![](../img/10/fig10.5.png)

> 图10.5. 回归的三种损失函数的比较,画出作为边缘 $y-f$ 的函数的图象.Huber损失函数结合了平方误差损失在0附近和绝对误差损失当$\vert y-f\vert$很大时的优点
> 图10.5. 回归的三种损失函数的比较,画出作为间隔 $y-f$ 的函数的图象.Huber损失函数结合了平方误差损失在0附近和绝对误差损失当$\vert y-f\vert$很大时的优点
这些考虑表明当需要关注鲁棒性时,特别是在数据挖掘的应用中(见 [10.7 节](10.7-Off-the-Shelf-Procedures-for-Data-Mining/index.html)),回归的平方误差损失和分类的指数损失从统计的角度来看都不是最好的标准.然而,它们都得到向前逐步加性建模中优美的模块化 boosting 算法.对于平方误差损失,每一步从当前模型的残差 $y_i-f_{m-1}(x_i)$ 来拟合基学习器.对于指数损失,对输出值 $y_i$ 进行加权的基学习器拟合,权重系数为 $w_i=\exp(-y_if_{m-1}(x_i))$.直接采用一个更加鲁棒的标准并不能在可行的 boosting 算法上面得到提高.然而,在 [10.10.2 节]()我们将说明怎么从任意可微的损失函数得到简单优美的 boosting 算法,从而得到高鲁棒性的 boosting 过程来进行数据挖掘.
这些考虑表明当需要关注鲁棒性时,特别是在数据挖掘的应用中(见 [10.7 节](10.7-Off-the-Shelf-Procedures-for-Data-Mining/index.html)),回归的平方误差损失和分类的指数损失从统计的角度来看都不是最好的标准.然而,它们都得到向前逐步加性建模中优美的模块化 boosting 算法.对于平方误差损失,每一步从当前模型的残差 $y_i-f_{m-1}(x_i)$ 来拟合基学习器.对于指数损失,对输出值 $y_i$ 进行加权的基学习器拟合,权重系数为 $w_i=\exp(-y_if_{m-1}(x_i))$.直接采用一个更加鲁棒的标准并不能在可行的 boosting 算法上面得到提高.然而,在 [10.10.2 节](10.10-Numerical-Optimization-via-Gradient-Boosting.md)我们将说明怎么从任意可微的损失函数得到简单优美的 boosting 算法,从而得到高鲁棒性的 boosting 过程来进行数据挖掘.``

[^1]: Rosset, S., Zhu, J. and Hastie, T. (2004b). Margin maximizing loss functions, in S. Thrun, L. Saul and B. Sch¨olkopf (eds), Advances in Neural Information Processing Systems 16, MIT Press, Cambridge, MA.
[^2]: Zhu, J., Zou, H., Rosset, S. and Hastie, T. (2005). Multiclass adaboost, Unpublished. [下载](../references/samme.pdf)
Expand Down

0 comments on commit f9d5852

Please sign in to comment.