1 CNN
padding
conv core
pooling
so much style of pooling and conv core
2 ResNET
残差网络
3 LSTM
记忆比RNN更长
4 XGBoost
1 bn -
batch nomolization 使得隐含层间数据均匀
2 pooling-
挑选特征如矩阵中的max值
3 padding-
在使用卷积层时 矩阵边缘收到的卷积程度 与其余部分不一致 因此拓展填充图像的边缘(补0或是其他值)
4 softmax
5 wordVect-
稀疏矩阵映射为向量
6 Adam
7 SGD
随机梯度下降
对于大规模网络来说,每计算一个样本就求解一次梯度,这样计算开销太大。
所以通常计算若干个样本再计算一次梯度,样本数常用batch_size控制。
8 Sequence
序列学习
RNN !!!hotfix
LSTM
9 Regulization--
L1L2范数惩罚
10 Nomolization-
11 emsemable-
12 loss_type-
13 embedding_size
14 conv_kernel--
卷积核
15 word2vec
和神经网络语言模型不同,直接来学习这个词向量,使用的基本假设是分布式假设,如果两个词的上下文时相似的,那么他们语义也是相似的。
word2vec分为cbow(根据context预测中心词)和skip-gram(根据中心词预测context)两种。
但有个问题就是我们的词通常有很多语义的,比如bank是银行还是河岸,具体的意思要取决与上下文,如果我们强行用一个向量来表示语义的话,只能把这两种语义都编码在这个向量里,但实际一个句子中,一个词只有一个语义,那么这种编码是有问题的。
那么这种上下文的语义可以通过RNN/LSTM/GRU来解决,RNN与普通深度学习不同的是,RNN是一种序列的模型,会有一定的记忆单元,能够记住之前的历史信息,从而可以建模这种上下文相关的一些语义。RNN中的记忆单元可以记住当前词之前的信息。
但RNN的结构不可支持长期记忆,lstm可以解决RNN长时依赖梯度消失的问题。
16 n-gram词袋
17 softmax 分类
18 regression