Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于训练步骤关联度的问题 #19

Closed
aguang1201 opened this issue Aug 11, 2018 · 6 comments
Closed

关于训练步骤关联度的问题 #19

aguang1201 opened this issue Aug 11, 2018 · 6 comments

Comments

@aguang1201
Copy link

首先必须感谢楼主分享的训练经验.我想确认这几步训练之间有什么联系?

@aguang1201
Copy link
Author

1,在完成第二步softmax loss初调后,进入第三步arcface loss调试时,参数中没有设置pretrained,那就是说没有利用第二步训练完的模型来微调,就是说softmax loss的训练和arcface loss训练是两个独立的训练,理解的对吗?
2,楼主说的训练12万步,是指设置--max-steps=120000,理解的对吗?
3,如果显卡不如楼主,batch_size不能设置到512,上面说的训练step要根据自己的batch_size来从新计算,理解的对吗?

@qihao430
Copy link

看到了就帮lz回答了吧。

  1. 里面有啊,--pretrained ../models/MobileFaceNet/model-y1-softmax,60,有预训练的,不是独立的。
  2. lr-steps 120000,140000,指的是训练12万步改learning rate为lr/10=0.01, 14万步后改为lr/100=0.001
  3. 我的1080TI需要把per-batch-size改成256,用512也会报错。

@qihao430
Copy link

@aguang1201 回答在楼上

@aguang1201
Copy link
Author

@qihao430
谢谢,我也发现后面的pretrained参数了。所以应该是顺序执行的。
疑问:
1,训练softmax12万步,设置--max-steps=120000。step不超过120000,设置lr-steps=120000,140000也没有意义啊。
2,batch_size设置到256后,所有step参数都要×2,对不?

@qihao430
Copy link

@aguang1201

  1. 我没设置max-steps,它默认等于0;你设置成12万步骤,到第12万的batch就停止了
  2. 改成256后,step参数我也没改成x2,单卡训练太慢了,lr-steps我都自己改小过;
    ps:不知道是不是per-batch-size小了还是epoch不够,我的最终结果会比论文上的差一点点。
    最后模型记得用deploy/model_slim.py运行下,人脸识别特征提取只需要到倒数第二层,模型最终只有4M多

@aguang1201
Copy link
Author

aguang1201 commented Aug 31, 2018

@qihao430
感谢提醒哈,不过也要小心运行了model_slim会覆盖原symbl文件,建议备份先。
ps:之所以设置maxstep是看到作者说训练12万步。这里可能有点小矛盾。
怀念双1080ti的日子啊

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants