【关于 batch_size设置】那些你不知道的事

一、训练模型时，batch_size的设置，学习率的设置?

cs224里说过，因为NVIDIA底层的并行计算架构，一般的训练batchsize32和64是效果最好的～好像也有实验支持。如果是训练GAN的话越大越好，biggan那篇paper有做过实验。学习率的设置就是调参的一部分啦，一般训练中会设置学习率衰减

传入的时候是矩阵，宏观上是同时，微观上就是硬件底层运算，biggan的batchsize是2048，我记得作者做过实验再大的话就会训练不稳定并且提升已经很低了。
batch一般选取2^n，主要是为了符合计算机内部的计算
大的batchsize减少训练时间，提高稳定性，计算更加稳定，因为模型训练曲线会更加平滑，但是会导致模型泛化能力下降，而小的batchsize会会有更好的泛化能力从而逃离sharp minimum，当我们增加batchsize为原来的N倍时，要保证经过同样的样本后更新的权重相等，按照线性缩放规则，学习率应该增加为原来的N倍，但是如果要保证权重的方差不变，则学习率应该增加为原来的sqrt(N)倍