diff --git a/docs/10-Boosting-and-Additive-Trees/10.1-Boosting-Methods.md b/docs/10-Boosting-and-Additive-Trees/10.1-Boosting-Methods.md index 87c72ec725..820f8717b3 100644 --- a/docs/10-Boosting-and-Additive-Trees/10.1-Boosting-Methods.md +++ b/docs/10-Boosting-and-Additive-Trees/10.1-Boosting-Methods.md @@ -24,7 +24,7 @@ $$ 弱分类器是误差率仅仅比随机猜测要好一点的分类器.Boosting 的目的是依次对反复修改的数据应用弱分类器算法,因此得到弱分类器序列 $G_m(x),m=1,2,\ldots,M$ 根据它们得到的预测再通过一个加权来得到最终的预测 $$ -G(x)=\mathrm {sign}(\sum\limits_{m=1}^M\alpha_mG_m(x))\tag{10.1} +G(x)=\mathrm {sign}\left(\sum\limits_{m=1}^M\alpha_mG_m(x)\right)\tag{10.1}\label{10.1} $$ 这里 $\alpha_1,\alpha_2,\ldots,\alpha_M$ 通过 boosting 算法进行计算,它们对每个单独的 $G_m(x)$ 的贡献度赋予权重.它们的作用是赋予分类器序列中更精确的分类器更大的影响力.图 10.1 显示了 AdaBoost 过程的概要图. diff --git a/docs/10-Boosting-and-Additive-Trees/10.5-Why-Exponential-Loss.md b/docs/10-Boosting-and-Additive-Trees/10.5-Why-Exponential-Loss.md index 2f237c2ef0..666c1f526f 100644 --- a/docs/10-Boosting-and-Additive-Trees/10.5-Why-Exponential-Loss.md +++ b/docs/10-Boosting-and-Additive-Trees/10.5-Why-Exponential-Loss.md @@ -14,13 +14,18 @@ AdaBoost.M1 算法最初是从一个非常不一样的角度出发得到的, 可以很简单地证明 (Friedman et al., 2000)[^1] $$ -f^*(x)=\mathrm{arg}\;\underset{f(x)}{\mathrm{min}}E_{Y\mid X}(e^{-Yf(x)})=\frac{1}{2}\log\frac{\Pr(Y=1\mid X)}{\Pr(Y=-1\mid X)}\tag{10.16} +f^*(x)=\mathrm{arg}\;\underset{f(x)}{\min}\mathrm{E}_{Y\mid x}(e^{-Yf(x)})=\frac{1}{2}\log\frac{\Pr(Y=1\mid X)}{\Pr(Y=-1\mid X)}\tag{10.16} $$ 或者等价地, $$ \Pr(Y=1\mid x)=\frac{1}{1+e^{-2f^*(x)}} $$ -因此,由 AdaBoost 得到的加性展开是在估计 $P(Y=1\mid x)$ 比率对数值的二分之一.这证明使用它的符号作为 (10.1) 的分类规则是合理的. +因此,由 AdaBoost 得到的加性展开是在估计 $P(Y=1\mid x)$ **对数比率值 (log-odds)** 的二分之一.这证明使用它的符号作为 \eqref{10.1} 的分类规则是合理的. + +!!! info "Recall" + $$ + G(x)=\mathrm {sign}\left(\sum\limits_{m=1}^M\alpha_mG_m(x)\right)\tag{10.1}\label{10.1} + $$ !!! note "weiya注" 此处 $f^\*(x)$ 相当于 $\sum\alpha_mG_m$,当其大于 0,表明 $P(Y=1\mid x)>P(Y=-1\mid x)$,所以称使用其符号作为分类规则是合理的. @@ -44,7 +49,7 @@ $$ 令 $$ -p(x)=\Pr(Y=1\mid x)=\frac{e^{f(x)}}{e^{-f(x)}+e^{f(x)}}=\frac{1}{1+e^{-2f(x)}}\tag{10.17} +p(x)=\Pr(Y=1\mid x)=\frac{e^{f(x)}}{e^{-f(x)}+e^{f(x)}}=\frac{1}{1+e^{-2f(x)}}\tag{10.17}\label{10.17} $$ 并且定义 $Y'=(Y+1)/2\in \\{0,1\\}$.则二项对数对数似然损失函数为 @@ -88,7 +93,7 @@ $$ $$ --> -因为对数概率的总体最大在真实概率 $p(x)=\Pr(Y=1\mid x)$ 处,我们从 (10.17) 看到偏差 $\E_{Y\mid x}[-l(Y,f(x))]$ 和 $\E_{Y\mid x}[e^{-Yf(x)}]$ 的总体最小点是一样的.因此,使用任意一个准则在总体的水平下得到相同的解.注意到 $e^{-Yf}$ 本身不是一个合适的对数似然函数,因为它不是二项随机变量 $Y\in \\{-1,1\\}$ 的概率密度函数的对数. +因为对数概率的总体最大在真实概率 $p(x)=\Pr(Y=1\mid x)$ 处,我们从 \eqref{10.17} 看到偏差 $\E_{Y\mid x}[-l(Y,f(x))]$ 和 $\E_{Y\mid x}[e^{-Yf(x)}]$ 的总体最小点是一样的.因此,使用任意一个准则在总体的水平下得到相同的解.注意到 $e^{-Yf}$ 本身不是一个合适的对数似然函数,因为它不是二项随机变量 $Y\in \\{-1,1\\}$ 的概率密度函数的对数. !!! note "weiya 注" 也就是说,不存在一个二项随机变量的密度函数,使得 $e^{-Yf}$ 成为其对数似然函数.