Skip to content

Commit

Permalink
note for AIC/BIC with unknown variance in Gaussian case
Browse files Browse the repository at this point in the history
  • Loading branch information
szcf-weiya committed Mar 15, 2021
1 parent 735fe01 commit e36f29a
Show file tree
Hide file tree
Showing 2 changed files with 17 additions and 1 deletion.
Original file line number Diff line number Diff line change
Expand Up @@ -44,6 +44,13 @@ $$
$$
对于高斯模型(假设方差 $\sigma_\varepsilon^2=\hat\sigma_\varepsilon^2$ 已知),AIC 统计量等于 $C_p$,因此我们称它们一起称为 AIC.

!!! note "weiya 注:"
注意此处假设 $\sigma_\varepsilon^2$ 已知,如果也将其看成是未知的,并通过 MLE 求解,则 AIC 准则(忽略常数)为
$$
\mathrm{AIC} = n\log\mathrm{RSS} + 2d\,,
$$
详见 [Wiki: AIC](https://en.wikipedia.org/wiki/Akaike_information_criterion#Comparison_with_least_squares)

采用 AIC 来进行模型选择时,我们在考虑的模型中选择具有最小的 AIC 的模型.对于非线性或者其他复杂模型,我们需要将 $d$ 换成其它衡量模型复杂度的量.我们将在 [7.6 节](7.6-The-Effective-Number-of-Parameters/index.html)讨论这点.

给定由调整参数 $\alpha$ 编号的一系列模型,用 $\overline{\err}(\alpha)$ 和 $d(\alpha)$ 记为每个模型的训练误差和参数的个数.接着对于模型序列我们定义
Expand Down
Original file line number Diff line number Diff line change
Expand Up @@ -19,7 +19,16 @@ BIC 准则(乘以 1/2)也被称作 Schwarz 准则 (Schwarz,1978[^1]).
$$
\mathrm{BIC} = \frac{N}{\sigma_\varepsilon^2}[\overline{\err}+(\log N)\cdot\frac{d}{N}\sigma_\varepsilon^2]\tag{7.36}
$$
因此当用 2 替换 $\log N$ 后,BIC 与 AIC($C_p$)成比例的.假设 $N > e^2\approx 7.4$,BIC 趋向于对复杂模型惩罚更重,偏向于选择更简单的模型.如同 AIC,$\sigma_\varepsilon^2$ 一般通过低偏差模型的均方误差来估计.对于分类问题,选择交叉熵作为误差衡量,使用多项对数似然会导出与 AIC 更相似的关系.注意到误分类误差率不会出现在 BIC 中,因为它并不对应于在任何概率模型下数据的对数似然.
因此当用 2 替换 $\log N$ 后,BIC 与 AIC($C_p$)成比例的.假设 $N > e^2\approx 7.4$,BIC 趋向于对复杂模型惩罚更重,偏向于选择更简单的模型.如同 AIC,$\sigma_\varepsilon^2$ 一般通过低偏差模型的均方误差来估计.

!!! note "weiya 注:"
注意此处假设 $\sigma_\varepsilon^2$ 已知,如果将其看成未知,并通过 MLE 求解,则 BIC 准则(忽略常数)为
$$
\mathrm{BIC} = n\log\mathrm{RSS} + d\log n\,,
$$
详见 [Wiki: BIC](https://en.wikipedia.org/wiki/Bayesian_information_criterion#Gaussian_special_case)

对于分类问题,选择交叉熵作为误差衡量,使用多项对数似然会导出与 AIC 更相似的关系.注意到误分类误差率不会出现在 BIC 中,因为它并不对应于在任何概率模型下数据的对数似然.

尽管和 AIC 很相似,但 BIC 的来源 (motivation) 截然不同.它来源于使用贝叶斯方法来选择模型,我们现在进行讨论.

Expand Down

0 comments on commit e36f29a

Please sign in to comment.