Skip to content

Commit

Permalink
doc
Browse files Browse the repository at this point in the history
  • Loading branch information
SmirkCao committed Sep 6, 2018
1 parent 437374d commit 6b819a5
Show file tree
Hide file tree
Showing 4 changed files with 80 additions and 3 deletions.
42 changes: 42 additions & 0 deletions CH1/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -11,3 +11,45 @@

## 模型是什么?
在监督学习过程中, 模型就是所要学习的**条件概率分布**或者**决策函数**.

## 损失函数和风险函数

1. 损失函数(loss function)或代价函数(cost function)
损失函数定义为给定输入$X$的预测值$f(X)$和真实值$Y$之间的非负实值函数, 记作$L(Y,f(X))$

1. 风险函数(risk function)或期望损失(expected loss)
$R_{exp}(f)=E_p[L(Y, f(X))]=\int_{\mathcal X\times\mathcal Y}L(y,f(x))P(x,y)\, {\rm d}x{\rm d}y$
模型$f(X)$关于联合分布$P(X,Y)$的**平均意义下的**损失(**期望**损失), 但是因为$P(X,Y)$是未知的, 所以前面的用词是**期望**, 以及**平均意义下的**.

这个表示其实就是损失的均值, 反映了对整个数据的预测效果的好坏, $P(x,y)$转换成$\frac {\nu(X=x, Y=y)}{N}$更容易直观理解, 可以参考[CH9](../CH9/README.md), 6.2.2节的部分描述来理解, 但是真实的数据N是无穷的.

1. **经验风险**(empirical risk)或**经验损失**(empirical loss)
$R_{emp}(f)=\frac{1}{N}\sum^{N}_{i=1}L(y_i,f(x_i))$
模型$f$关于训练样本集的平均损失
根据大数定律, 当样本容量N趋于无穷大时, 经验风险趋于期望风险.

1. **结构风险**(structural risk)
$R_{srm}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f)$
$J(f)$为模型复杂度, $\lambda \geqslant 0$是系数, 用以权衡经验风险和模型复杂度.

## 经验风险最小化与结构风险最小化



1. **极大似然估计**是经验风险最小化的一个例子.
当模型是条件概率分布, 损失函数是对数损失函数时, 经验风险最小化等价于极大似然估计.
1. **贝叶斯估计**中的**最大后验概率估计**是结构风险最小化的一个例子.
当模型是条件概率分布, 损失函数是对数损失函数, **模型复杂度由模型的先验概率表示**时, 结构风险最小化等价于最大后验概率估计.

## 模型选择

1. 正则化
模型选择的典型方法是正则化
1. 交叉验证
另一种常用的模型选择方法是交叉验证
- 简单
- S折(k折, k-fold)
- 留一法



18 changes: 17 additions & 1 deletion CH12/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -167,4 +167,20 @@ $$ \min \limits_{f \in {H}} \frac {1}{N} \sum \limits^{N}_{i=1} L(y_i , f(x_i))
1. 支持向量机[CH7]
1. 决策树[CH5]
1. 提升方法[CH8]
1. EM算法[CH9]
1. EM算法[CH9]



| 方法 | 适用问题 | 模型特点 | 模型类型 | 学习策略 | 学习的损失函数 | 学习算法 |
| ------------------------ | ---------------- | ------------------ | -------- | ------------------------ | :----------------- | -------------------- |
| 感知机 | 二类分类 | 分离超平面 | 判别模型 | 极小化误分点到超平面距离 | 误分点到超平面距离 | SGD |
| k近邻 | 多类分类, 回归 | 特征空间, 样本点 | 判别模型 | | | |
| 朴素贝叶斯法 | 多类分类 | | 生成模型 | MLE, MAP | 对数似然损失 | 概率计算公式, EM算法 |
| 决策树 | 二类分类 | | 判别模型 | 正则化的极大似然估计 | 对数似然损失 | 特征选择, 生成, 剪枝 |
| 逻辑斯谛回归与最大熵模型 | 多类分类 | | 判别模型 | | | |
| 支持向量机 | 二类分类 | | 判别模型 | | | |
| 提升方法 | 二类分类 | | 判别模型 | | | |
| EM算法 | 概率模型参数估计 | 含隐变量的概率模型 | | | | |
| 隐马尔科夫模型 | 标注 | | 生成模型 | | | |
| 条件随机场 | 标注 | | 判别模型 | | | |

16 changes: 14 additions & 2 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -21,11 +21,23 @@

读书的时候经常会有关于对数底数是多少的问题, 因为有换底公式, 所以, 底具体是什么关系不是太大, 差异在于一个常系数. 但是选用不同的底会有物理意义和处理问题方面的考虑, 关于这个问题的分析, 看PRML 1.6中关于熵的讨论.

## CH1 统计学习方法概论

[Introduction](./CH1/README.md)

统计学习方法三要素:

- 模型
- 策略
- 算法

## CH2 感知机

[Perceptron](CH2/README.md)
- 感知机是二类分类的线性分类模型
- 感知机对应于特征空间中将实例划分为正负两类的分离超平面.
## CH3 k近邻法

[kNN](CH3/README.md)
- kNN是一种基本的分类与回归方法
- k值的选择, 距离度量及分类决策规则是kNN的三个基本要素.
Expand Down Expand Up @@ -80,9 +92,9 @@ $$P_\lambda(X^{(j)}=a_{jl}|Y=c_k)=\frac{\sum_{i=1}^{N}{I(x_i^{(j)}=a_{jl}, y_i=c

## CH9 EM算法及其推广

[EM]
[EM](./CH9/README.md)

- EM算法是一种迭代算法, 用于含有隐变量的概率模型参数的极大似然估计, 或者极大后验概率估计.
- EM算法是一种迭代算法, 用于含有隐变量的概率模型参数**极大似然估计**, 或者极大后验概率估计. (这里的极大似然估计和极大后验概率估计是**学习策略**)
- 如果概率模型的变量都是观测变量, 那么给定数据, 可以直接用极大似然估计法, 或贝叶斯估计法估计模型参数.

## CH12 统计学习方法总结
Expand Down
7 changes: 7 additions & 0 deletions errata.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,7 @@
# ERRATA

参考书版本为2017年11月第20次印刷, 在这之后的印刷版本有可能进行过修订, 愿本书越来越完善.

1. $P_{162}$ 高斯混合模型的英文表示: Gaussian misture model $\rightarrow$ Gaussian mixture model
1.

0 comments on commit 6b819a5

Please sign in to comment.