Skip to content

每日一题(涉及但不仅限于机器学习、深度学习和计算机视觉等方向)

Notifications You must be signed in to change notification settings

mgq1507/daily-question

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 

Repository files navigation

每日一题

daily-question 涉及但不局限于机器学习、深度学习和计算机视觉等方向

Warning:众人拾柴火焰高,如果大家有看到很好的题目,可以通过提交issue的方式把题目和答案分享出来,互相学习,一起进步

题目

1.【排序题】梯度下降算法的正确步骤是什么?(dcaeb)

a.计算预测值和真实值之间的误差

b.重复迭代,直至得到网络权重的最佳值

c.把输入传入网络,得到输出值

d.用随机值初始化权重和偏差

e.对每一个产生误差的神经元,调整相应的(权重)值以减小误差

2.【多选题】小明在训练深度学习模型时,发现训练集误差不断减少,测试集误差不断增大,以下解决方法正确的是:(ACD)

A. 数据增广

B. 增加网络深度

C. 提前停止训练

D. 添加Dropout

3.【单选题】以下关于鞍点上的Hessian矩阵的描述哪个是正确的?(C)

A. 正定矩阵

B. 负定矩阵

C. 半正定矩阵

D. 都不对

4.【单选题】以下几种优化方法中,哪种对超参数最不敏感?(C)

A. SGD(stochatic gradient descent)

B. BGD(batch gradient descent)

C. Adadetla

D. Momentum

解析:

1)SGD受到学习率α影响

2)BGD受到batch规模m影响

3)Adagrad的一大优势时可以避免手动调节学习率,比如设置初始的缺省学习率为0.01,然后就不管它,另其在学习的过程中自己变化。

为了避免削弱单调猛烈下降的减少学习率,Adadelta产生了1。Adadelta限制把历史梯度累积窗口限制到固定的尺寸w,而不是累加所有的梯度平方和

4)Momentum:也受到学习率α的影响

5.【多选题】为什么正则化能处理过拟合?(ABCD)

A.惩罚了模型的复杂度,避免模型过度学习训练集,提高泛化能力

B.剃刀原理:如果两个理论都能解释一件事情,那么较为简单的理论往往是正确的

C.正则项降低了每一次系数w更新的步伐,使参数更小,模型更简单

D.贝叶斯学派的观点,认为加入了先验分布(l1拉普拉斯分布,l2高斯分布),减少参数的选择空间

解析:

A/C 选项没有问题,只不过C中的"步伐"理解起来并不清晰。B/D选项是有点追本溯源的意思,剃刀原理其实是奥卡姆剃刀原理:更小的权值w,从某种意义上说,表示网络的复杂度更低,对数据的拟合刚刚好;从贝叶斯角度理解,为参数 ω 引入拉普拉斯先验分布的最大似然,相当于给均方误差函数加上L1正则项;为参数 ω引入高斯先验分布的最大似然,相当于给均方误差函数加上L2正则项。

参考:

正则化为什么能防止过拟合(重点地方标红了)

【机器学习】从贝叶斯角度理解正则化缓解过拟合

About

每日一题(涉及但不仅限于机器学习、深度学习和计算机视觉等方向)

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published