Name	Name	Last commit message	Last commit date
parent directory ..
README.md	README.md

CH01 统计学习方法概论

统计学习方法三要素:模型,策略,算法.

实现统计学习方法的步骤

得到一个有限的训练数据集合
确定包含所有可能的模型的假设空间, 即学习模型的集合.
确定模型选择的准则, 即学习的策略
实现求解最优模型的算法, 即学习的算法
通过学习方法选择最优的模型
利用学习的最优模型对新数据进行预测或分析.

模型是什么?

在监督学习过程中, 模型就是所要学习的条件概率分布或者决策函数.

损失函数与风险函数

损失函数(loss function)或代价函数(cost function) 损失函数定义为给定输入$X$的预测值$f(X)$和真实值$Y$之间的非负实值函数, 记作$L(Y,f(X))$
风险函数(risk function)或期望损失(expected loss) $R_{exp}(f)=E_p[L(Y, f(X))]=\int_{\mathcal X\times\mathcal Y}L(y,f(x))P(x,y), {\rm d}x{\rm d}y$ 模型$f(X)$关于联合分布$P(X,Y)$的平均意义下的损失(期望损失), 但是因为$P(X,Y)$是未知的, 所以前面的用词是期望, 以及平均意义下的.

这个表示其实就是损失的均值, 反映了对整个数据的预测效果的好坏, $P(x,y)$转换成$\frac {\nu(X=x, Y=y)}{N}$更容易直观理解, 可以参考CH9, 6.2.2节的部分描述来理解, 但是真实的数据N是无穷的.
经验风险(empirical risk)或经验损失(empirical loss) $R_{emp}(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i))$ 模型$f$关于训练样本集的平均损失根据大数定律, 当样本容量N趋于无穷大时, 经验风险趋于期望风险.
结构风险(structural risk) $R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f)$ $J(f)$为模型复杂度, $\lambda \geqslant 0$是系数, 用以权衡经验风险和模型复杂度.

经验风险最小化与结构风险最小化

极大似然估计是经验风险最小化的一个例子. 当模型是条件概率分布, 损失函数是对数损失函数时, 经验风险最小化等价于极大似然估计.
贝叶斯估计中的最大后验概率估计是结构风险最小化的一个例子. 当模型是条件概率分布, 损失函数是对数损失函数, 模型复杂度由模型的先验概率表示时, 结构风险最小化等价于最大后验概率估计.

模型选择

正则化模型选择的典型方法是正则化
交叉验证另一种常用的模型选择方法是交叉验证
- 简单
- S折(K折, K-Fold)¹
- 留一法

生成模型与判别模型

监督学习方法可分为生成方法(generative approach)与判别方法(discriminative approach)

生成模型

generative model

可以还原出联合概率分布$P(X,Y)$
收敛速度快, 当样本容量增加时, 学到的模型可以更快收敛到真实模型
当存在隐变量时仍可以用

判别方法

discriminative model

直接学习条件概率$P(Y|X)$或者决策函数$f(X)$
直接面对预测, 往往学习准确率更高
可以对数据进行各种程度的抽象, 定义特征并使用特征, 可以简化学习问题

参考

ESL:7.10.1:K-Forld Cross Validation ↩

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

CH01

CH01

README.md

CH01 统计学习方法概论

实现统计学习方法的步骤

模型是什么?

损失函数与风险函数

经验风险最小化与结构风险最小化

模型选择

生成模型与判别模型

生成模型

判别方法

参考

Files

CH01

Directory actions

More options

Directory actions

More options

Latest commit

History

CH01

Folders and files

parent directory

README.md

CH01 统计学习方法概论

实现统计学习方法的步骤

模型是什么?

损失函数与风险函数

经验风险最小化与结构风险最小化

模型选择

生成模型与判别模型

生成模型

判别方法

参考

Footnotes