diff --git a/docs/07-Model-Assessment-and-Selection/7.5-Estimates-of-In-Sample-Prediction-Error.md b/docs/07-Model-Assessment-and-Selection/7.5-Estimates-of-In-Sample-Prediction-Error.md index 450fdd9f73..e081e41983 100644 --- a/docs/07-Model-Assessment-and-Selection/7.5-Estimates-of-In-Sample-Prediction-Error.md +++ b/docs/07-Model-Assessment-and-Selection/7.5-Estimates-of-In-Sample-Prediction-Error.md @@ -44,6 +44,13 @@ $$ $$ 对于高斯模型(假设方差 $\sigma_\varepsilon^2=\hat\sigma_\varepsilon^2$ 已知),AIC 统计量等于 $C_p$,因此我们称它们一起称为 AIC. +!!! note "weiya 注:" + 注意此处假设 $\sigma_\varepsilon^2$ 已知,如果也将其看成是未知的,并通过 MLE 求解,则 AIC 准则(忽略常数)为 + $$ + \mathrm{AIC} = n\log\mathrm{RSS} + 2d\,, + $$ + 详见 [Wiki: AIC](https://en.wikipedia.org/wiki/Akaike_information_criterion#Comparison_with_least_squares) + 采用 AIC 来进行模型选择时,我们在考虑的模型中选择具有最小的 AIC 的模型.对于非线性或者其他复杂模型,我们需要将 $d$ 换成其它衡量模型复杂度的量.我们将在 [7.6 节](7.6-The-Effective-Number-of-Parameters/index.html)讨论这点. 给定由调整参数 $\alpha$ 编号的一系列模型,用 $\overline{\err}(\alpha)$ 和 $d(\alpha)$ 记为每个模型的训练误差和参数的个数.接着对于模型序列我们定义 diff --git a/docs/07-Model-Assessment-and-Selection/7.7-The-Bayesian-Approach-and-BIC.md b/docs/07-Model-Assessment-and-Selection/7.7-The-Bayesian-Approach-and-BIC.md index ccddb998dd..82ffeba625 100644 --- a/docs/07-Model-Assessment-and-Selection/7.7-The-Bayesian-Approach-and-BIC.md +++ b/docs/07-Model-Assessment-and-Selection/7.7-The-Bayesian-Approach-and-BIC.md @@ -19,7 +19,16 @@ BIC 准则(乘以 1/2)也被称作 Schwarz 准则 (Schwarz,1978[^1]). $$ \mathrm{BIC} = \frac{N}{\sigma_\varepsilon^2}[\overline{\err}+(\log N)\cdot\frac{d}{N}\sigma_\varepsilon^2]\tag{7.36} $$ -因此当用 2 替换 $\log N$ 后,BIC 与 AIC($C_p$)成比例的.假设 $N > e^2\approx 7.4$,BIC 趋向于对复杂模型惩罚更重,偏向于选择更简单的模型.如同 AIC,$\sigma_\varepsilon^2$ 一般通过低偏差模型的均方误差来估计.对于分类问题,选择交叉熵作为误差衡量,使用多项对数似然会导出与 AIC 更相似的关系.注意到误分类误差率不会出现在 BIC 中,因为它并不对应于在任何概率模型下数据的对数似然. +因此当用 2 替换 $\log N$ 后,BIC 与 AIC($C_p$)成比例的.假设 $N > e^2\approx 7.4$,BIC 趋向于对复杂模型惩罚更重,偏向于选择更简单的模型.如同 AIC,$\sigma_\varepsilon^2$ 一般通过低偏差模型的均方误差来估计. + +!!! note "weiya 注:" + 注意此处假设 $\sigma_\varepsilon^2$ 已知,如果将其看成未知,并通过 MLE 求解,则 BIC 准则(忽略常数)为 + $$ + \mathrm{BIC} = n\log\mathrm{RSS} + d\log n\,, + $$ + 详见 [Wiki: BIC](https://en.wikipedia.org/wiki/Bayesian_information_criterion#Gaussian_special_case) + +对于分类问题,选择交叉熵作为误差衡量,使用多项对数似然会导出与 AIC 更相似的关系.注意到误分类误差率不会出现在 BIC 中,因为它并不对应于在任何概率模型下数据的对数似然. 尽管和 AIC 很相似,但 BIC 的来源 (motivation) 截然不同.它来源于使用贝叶斯方法来选择模型,我们现在进行讨论.