Skip to content

Commit

Permalink
修改线性回归+逻辑回归
Browse files Browse the repository at this point in the history
修改线性回归+逻辑回归
  • Loading branch information
ZhT515 authored Oct 14, 2021
1 parent 7b81473 commit a2e3b10
Showing 1 changed file with 25 additions and 4 deletions.
29 changes: 25 additions & 4 deletions AI算法/machine-learning/线性回归+逻辑回归.md
Original file line number Diff line number Diff line change
Expand Up @@ -4,6 +4,7 @@

## 1. 简单介绍一下线性回归。

**线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。**这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。
- 线性:两个变量之间的关系****一次函数关系的——图象**是直线**,叫做线性。
- 非线性:两个变量之间的关系**不是**一次函数关系的——图象**不是直线**,叫做非线性。
- 回归:人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测量数据计算**回归到真实值**,这就是回归的由来。
Expand All @@ -20,11 +21,15 @@ $$
其中$\theta,x$都是列向量

## 3. 线性回归的代价(损失)函数是什么形式?

一般使用**最小二乘法**,真实值$y_{i}$,预测值$h_θ(x)$,则误差平方为$\left(y_{i}-h_{\theta}\left(x_{i}\right)\right)^{2}$找到合适的参数,使得误差平方平方和最小
$$
MSE: \qquad J\left(\theta_{0}, \theta_{1}\right)=\frac{1}{2 m} \sum_{i=1}^{m}\left(y_{i}-h_{\theta}\left(x_{i}\right)\right)^{2}
$$

其中共有$m$个样本点,乘以1/2是为了方便计算。

参考资料:https://www.cnblogs.com/xym4869/p/11309134.html



## 4. 简述岭回归与Lasso回归以及使用场景。
Expand Down Expand Up @@ -110,6 +115,7 @@ $$

## 7. 简单介绍一下Sigmoid函数

sigmoid函数也叫Logistic函数,用于隐层神经元输出,取值范围为(0,1),它可以将一个实数映射到(0,1)的区间,可以用来做二分类。在特征相差比较复杂或是相差不是特别大时效果比较好。
函数公式如下:
$$
S(t)=\frac{1}{1+e^{-t}}
Expand Down Expand Up @@ -185,6 +191,11 @@ $$
* 方便交叉与特征组合:离散化后可以进行特征交叉,由$M+N$个变量变为$M*N$个变量,进一步引入非线性,提升表达能力;

* 简化模型:特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。
* 稳定性:特征离散化后,模型会更稳定,比如如果对用户年龄离散化,20-30作为一个区间,不会因为一个用户年龄长了一岁就变成一个完全不同的人;

* 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰。

参考资料:https://blog.csdn.net/qq1195365047/article/details/88638809

## 12. 线性回归与逻辑回归的区别

Expand Down Expand Up @@ -225,7 +236,9 @@ $$

## 13. 为什么逻辑回归比线性回归要好?

逻辑回归和线性回归首先都是广义的线性回归,其次经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数,另外线性回归在整个实数域范围内进行预测,敏感度一致,而分类范围,需要在0,1间的一种回归模型,因而对于这类问题来说,逻辑回归的鲁棒性比线性回归的要好
逻辑回归和线性回归首先都是广义的线性回归,其次经典线性模型的优化目标函数是最小二乘,而逻辑回归则是似然函数,逻辑回归在线性回归的基础上,在特征到结果的映射中加入了一层sigmoid函数(非线性)映射,即先把特征线性求和,然后使用sigmoid函数来预测。另外线性回归在整个实数域范围内进行预测,敏感度一致,而分类范围,需要在0,1间的一种回归模型,因而对于这类问题来说,逻辑回归的鲁棒性比线性回归的要好。

参考资料:https://www.deeplearn.me/1788.html

## 14. 逻辑回归有哪些应用

Expand Down Expand Up @@ -282,7 +295,15 @@ $$

## 17. LR为什么使用sigmoid函数?

https://blog.csdn.net/qq_19645269/article/details/79551576
Sigmoid是逻辑回归作为glm的link函数。之所以用它是因为:

1. 线性模型的输出都是在$[-∞,+∞]$之间的,而Sigmoid能够把它映射到$[0,1]$之间。正好这个是概率的范围。
2. Sigmoid是连续光滑的。
3. 根据Sigmoid函数,最后推导下来逻辑回归其实就是最大熵模型,根据最大似然估计得到的模型的损失函数就是logloss。这让整个逻辑回归都有理可据。
4. Sigmoid也让逻辑回归的损失函数成为凸函数,这也是很好的性质。
5. 逻辑回归的损失函数是二元分类的良好代理函数,这个也是Sigmoid的功劳。

参考资料:http://sofasofa.io/forum_main_post.php?postid=1004244



Expand All @@ -305,4 +326,4 @@ http://blog.sina.com.cn/s/blog_6cb8e53d0101oetv.html

## 20.当用lr时,特征中的某些值很大,意味着这个特征重要程度很高?

这里的特征是指输入特征,输入特征和模型没有任何直接关系,其次lr模型需要的数据,一般情况下需要进行离散化,以保证模型的鲁棒性。但是一般情况下我们会根据lr中参数的大小来判断其对应特征的重要程度,在线性模型中(特征归一化之后)我们认为特征对应的参数值越大,其特征重要性越高。
这里的特征是指输入特征,输入特征和模型没有任何直接关系,其次lr模型需要的数据,一般情况下需要进行离散化,以保证模型的鲁棒性。但是一般情况下我们会根据lr中参数的大小来判断其对应特征的重要程度,在线性模型中(特征归一化之后)我们认为特征对应的参数值越大,其特征重要性越高。

0 comments on commit a2e3b10

Please sign in to comment.