每日一题

daily-question 涉及但不局限于机器学习、深度学习和计算机视觉等方向

Warning：众人拾柴火焰高，如果大家有看到很好的题目，可以通过提交issue的方式把题目和答案分享出来，互相学习，一起进步

题目

1.【排序题】梯度下降算法的正确步骤是什么？（dcaeb）

a.计算预测值和真实值之间的误差

b.重复迭代，直至得到网络权重的最佳值

c.把输入传入网络，得到输出值

d.用随机值初始化权重和偏差

e.对每一个产生误差的神经元，调整相应的（权重）值以减小误差

2.【多选题】小明在训练深度学习模型时，发现训练集误差不断减少，测试集误差不断增大，以下解决方法正确的是：（ACD）

A. 数据增广

B. 增加网络深度

C. 提前停止训练

D. 添加Dropout

3.【单选题】以下关于鞍点上的Hessian矩阵的描述哪个是正确的？（C）

A. 正定矩阵

B. 负定矩阵

C. 半正定矩阵

D. 都不对

4.【单选题】以下几种优化方法中，哪种对超参数最不敏感？（C）

A. SGD（stochatic gradient descent）

B. BGD（batch gradient descent）

C. Adadetla

D. Momentum

解析：

1）SGD受到学习率α影响

2）BGD受到batch规模m影响

3）Adagrad的一大优势时可以避免手动调节学习率，比如设置初始的缺省学习率为0.01，然后就不管它，另其在学习的过程中自己变化。

为了避免削弱单调猛烈下降的减少学习率，Adadelta产生了1。Adadelta限制把历史梯度累积窗口限制到固定的尺寸w，而不是累加所有的梯度平方和

4）Momentum：也受到学习率α的影响

5.【多选题】为什么正则化能处理过拟合？（ABCD）

A.惩罚了模型的复杂度，避免模型过度学习训练集，提高泛化能力

B.剃刀原理：如果两个理论都能解释一件事情，那么较为简单的理论往往是正确的

C.正则项降低了每一次系数w更新的步伐，使参数更小，模型更简单

D.贝叶斯学派的观点，认为加入了先验分布（l1拉普拉斯分布，l2高斯分布），减少参数的选择空间

解析：

A/C 选项没有问题，只不过C中的"步伐"理解起来并不清晰。B/D选项是有点追本溯源的意思，剃刀原理其实是奥卡姆剃刀原理：更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合刚刚好；从贝叶斯角度理解，为参数 ω 引入拉普拉斯先验分布的最大似然，相当于给均方误差函数加上L1正则项；为参数 ω引入高斯先验分布的最大似然，相当于给均方误差函数加上L2正则项。

参考：

正则化为什么能防止过拟合（重点地方标红了）

【机器学习】从贝叶斯角度理解正则化缓解过拟合

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

每日一题

题目

About

Releases

Packages

mgq1507/daily-question

Folders and files

Latest commit

History

Repository files navigation

每日一题

题目

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Packages