proofread

alphabetakappa · Dec 14, 2020 · a658679 · a658679
1 parent e360274
commit a658679
Show file tree

Hide file tree

Showing 2 changed files with 10 additions and 5 deletions.
diff --git a/docs/10-Boosting-and-Additive-Trees/10.1-Boosting-Methods.md b/docs/10-Boosting-and-Additive-Trees/10.1-Boosting-Methods.md
@@ -24,7 +24,7 @@ $$
 弱分类器是误差率仅仅比随机猜测要好一点的分类器．Boosting 的目的是依次对反复修改的数据应用弱分类器算法，因此得到弱分类器序列 $G_m(x),m=1,2,\ldots,M$ 根据它们得到的预测再通过一个加权来得到最终的预测
 
 $$
-G(x)=\mathrm {sign}(\sum\limits_{m=1}^M\alpha_mG_m(x))\tag{10.1}
+G(x)=\mathrm {sign}\left(\sum\limits_{m=1}^M\alpha_mG_m(x)\right)\tag{10.1}\label{10.1}
 $$
 
 这里 $\alpha_1,\alpha_2,\ldots,\alpha_M$ 通过 boosting 算法进行计算，它们对每个单独的 $G_m(x)$ 的贡献度赋予权重．它们的作用是赋予分类器序列中更精确的分类器更大的影响力．图 10.1 显示了 AdaBoost 过程的概要图．

diff --git a/docs/10-Boosting-and-Additive-Trees/10.5-Why-Exponential-Loss.md b/docs/10-Boosting-and-Additive-Trees/10.5-Why-Exponential-Loss.md
@@ -14,13 +14,18 @@ AdaBoost.M1 算法最初是从一个非常不一样的角度出发得到的，
 
 可以很简单地证明 (Friedman et al., 2000)[^1]
 $$
-f^*(x)=\mathrm{arg}\;\underset{f(x)}{\mathrm{min}}E_{Y\mid X}(e^{-Yf(x)})=\frac{1}{2}\log\frac{\Pr(Y=1\mid X)}{\Pr(Y=-1\mid X)}\tag{10.16}
+f^*(x)=\mathrm{arg}\;\underset{f(x)}{\min}\mathrm{E}_{Y\mid x}(e^{-Yf(x)})=\frac{1}{2}\log\frac{\Pr(Y=1\mid X)}{\Pr(Y=-1\mid X)}\tag{10.16}
 $$
 或者等价地，
 $$
 \Pr(Y=1\mid x)=\frac{1}{1+e^{-2f^*(x)}}
 $$
-因此，由 AdaBoost 得到的加性展开是在估计 $P(Y=1\mid x)$ 比率对数值的二分之一．这证明使用它的符号作为 (10.1) 的分类规则是合理的．
+因此，由 AdaBoost 得到的加性展开是在估计 $P(Y=1\mid x)$ **对数比率值 (log-odds)** 的二分之一．这证明使用它的符号作为 \eqref{10.1} 的分类规则是合理的．
+
+!!! info "Recall"
+    $$
+    G(x)=\mathrm {sign}\left(\sum\limits_{m=1}^M\alpha_mG_m(x)\right)\tag{10.1}\label{10.1}
+    $$
 
 !!! note "weiya注"
     此处 $f^\*(x)$ 相当于 $\sum\alpha_mG_m$，当其大于 0，表明 $P(Y=1\mid x)>P(Y=-1\mid x)$，所以称使用其符号作为分类规则是合理的．
@@ -44,7 +49,7 @@ $$
 
 令
 $$
-p(x)=\Pr(Y=1\mid x)=\frac{e^{f(x)}}{e^{-f(x)}+e^{f(x)}}=\frac{1}{1+e^{-2f(x)}}\tag{10.17}
+p(x)=\Pr(Y=1\mid x)=\frac{e^{f(x)}}{e^{-f(x)}+e^{f(x)}}=\frac{1}{1+e^{-2f(x)}}\tag{10.17}\label{10.17}
 $$
 并且定义 $Y'=(Y+1)/2\in \\{0,1\\}$．则二项对数对数似然损失函数为
 
@@ -88,7 +93,7 @@ $$
     $$
 -->
 
-因为对数概率的总体最大在真实概率 $p(x)=\Pr(Y=1\mid x)$ 处，我们从 (10.17) 看到偏差 $\E_{Y\mid x}[-l(Y,f(x))]$ 和 $\E_{Y\mid x}[e^{-Yf(x)}]$ 的总体最小点是一样的．因此，使用任意一个准则在总体的水平下得到相同的解．注意到 $e^{-Yf}$ 本身不是一个合适的对数似然函数，因为它不是二项随机变量 $Y\in \\{-1,1\\}$ 的概率密度函数的对数．
+因为对数概率的总体最大在真实概率 $p(x)=\Pr(Y=1\mid x)$ 处，我们从 \eqref{10.17} 看到偏差 $\E_{Y\mid x}[-l(Y,f(x))]$ 和 $\E_{Y\mid x}[e^{-Yf(x)}]$ 的总体最小点是一样的．因此，使用任意一个准则在总体的水平下得到相同的解．注意到 $e^{-Yf}$ 本身不是一个合适的对数似然函数，因为它不是二项随机变量 $Y\in \\{-1,1\\}$ 的概率密度函数的对数．
 
 !!! note "weiya 注"
     也就是说，不存在一个二项随机变量的密度函数，使得 $e^{-Yf}$ 成为其对数似然函数．