Skip to content

Commit

Permalink
add somec questions in chap2
Browse files Browse the repository at this point in the history
  • Loading branch information
HuangQinJian committed Oct 27, 2018
1 parent 7eef38b commit 80acb13
Showing 1 changed file with 57 additions and 0 deletions.
57 changes: 57 additions & 0 deletions MarkDown/第二章_机器学习基础.md
Original file line number Diff line number Diff line change
Expand Up @@ -185,6 +185,45 @@ Logistic回归的因变量可以是二分类的,也可以是多分类的,但
3. 朴素贝叶斯需要独立假设。
4. 逻辑回归需要求特征参数间是线性的。

## 线性回归与逻辑回归的区别?(贡献者:黄钦建-华南理工大学)

线性回归的样本的输出,都是连续值,$ y\in (-\infty ,+\infty )$,而逻辑回归中$y\in (0,1)$,只能取0和1。

对于拟合函数也有本质上的差别:

线性回归:$f(x)=\theta ^{T}x=\theta _{1}x _{1}+\theta _{2}x _{2}+...+\theta _{n}x _{n}$

逻辑回归:$f(x)=P(y=1|x;\theta )=g(\theta ^{T}x)$,其中,$g(z)=\frac{1}{1+e^{-z}}$


可以看出,线性回归的拟合函数,是对f(x)的输出变量y的拟合,而逻辑回归的拟合函数是对为1类的样本的概率的拟合。

那么,为什么要以1类样本的概率进行拟合呢,为什么可以这样拟合呢?

$\theta ^{T}x=0$就相当于是1类和0类的决策边界:

当$\theta ^{T}x>0$,则y>0.5;若$\theta ^{T}x\rightarrow +\infty $,则$y \rightarrow 1 $,即y为1类;


当$\theta ^{T}x<0$,则y<0.5;若$\theta ^{T}x\rightarrow -\infty $,则$y \rightarrow 0 $,即y为0类;

这个时候就能看出区别来了,在线性回归中$\theta ^{T}x$为预测值的拟合函数;而在逻辑回归中$\theta ^{T}x$为决策边界。

| | 线性回归 | 逻辑回归 |
|:-------------:|:-------------:|:-----:|
| 目的 | 预测 |分类 |
| $y^{(i)}$ | 未知 | (0,1)|
| 函数 | 拟合函数 | 预测函数 |
| 参数计算方式| 最小二乘法 | 极大似然估计 |


下面具体解释一下:

1. 拟合函数和预测函数什么关系呢?其实就是将拟合函数做了一个逻辑函数的转换,转换后使得$y^{(i)} \in (0,1)$;

2. 最小二乘和最大似然估计可以相互替代吗?回答当然是不行了。我们来看看两者依仗的原理:最大似然估计是计算使得数据出现的可能性最大的参数,依仗的自然是Probability。而最小二乘是计算误差损失。


## 为什么需要代价函数?
1. 为了得到训练逻辑回归模型的参数,需要一个代价函数,通过训练代价函数来得到参数。
2. 用于找到最优解的目的函数。
Expand Down Expand Up @@ -729,6 +768,24 @@ TODO其映射为TODO
|Absolute Error (MAE, RAE)|绝对误差|from sklearn.metrics import mean_absolute_error, median_absolute_error|
|R-Squared|R平方值|from sklearn.metrics import r2_score|

## 机器学习中的Bias(偏差),Error(误差),和Variance(方差)有什么区别和联系?(贡献者:黄钦建-华南理工大学)

**对于Bias:**

- Bias衡量模型拟合训练数据的能力(训练数据不一定是整个 training dataset,而是只用于训练它的那一部分数据,例如:mini-batch)。
- Bias 越小,拟合能力越高(可能产生overfitting);反之,拟合能力越低(可能产生underfitting)。

**对于Variance:**

- Variance衡量模型的泛化的能力。
- Variance越小,模型的泛化的能力越高;反之,模型的泛化的能力越低。

> 训练误差大,测试误差小 → Bias大
>
> 训练误差小,测试误差大→ Variance大 → 降VC维
>
> 训练误差大,测试误差大→ 升VC维
### 经验误差与泛化误差
误差(error):一般地,我们把学习器的实际预测输出与样本的真是输出之间的差异称为“误差”

Expand Down

0 comments on commit 80acb13

Please sign in to comment.