-
Notifications
You must be signed in to change notification settings - Fork 130
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
请问用plato-2跑中文模型,loss一般下降到多少? #120
Comments
跑预训练的话你现在设置的学习率太低了,32L的可以设置2e-4,24L的可以5e-4 |
大佬,能否指教一下如何将英文的plato-2模型适用于中文的多轮对话任务? |
你好。 |
请问百度开源的12层plato预训练模型在哪里下载呢,只看到6层的plato-mini.。感觉这个模型有点小。所以,我才想尝试用大一点的plato模型,然后就来这里看plato-2。发现并没有开源中文版本,但是看到讨论好多人都将英文版本转换成中文版本了。 |
大规模数据预训练模型wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams" 对话比赛数据微调模型wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams" |
这两个模型我都用过,大佬用过嘛?我用的DuConv这个数据集在12层的luge模型上进行微调,验证集的困惑度最低也就4.42左右,模型效果感觉不佳。而且无法复现他链接里能达到的微调BLEU值。 |
我没有用plato的模型 |
大佬,能否加个微信,我找大佬指教下。 |
您好,我用plato-2跑中文模型(目前跑的是第一阶段),我感觉我的学习率是不是设置小了,我设置的为1e-5,跑了1.8M个步长(batch_size=32),loss下降到2.66,尽管loss一直在下降,但是我觉得太慢了。我是不是应该把学习率设置大一点,5e-4或者2e-5。另外,我想咨询一下第一阶段的loss一般下降到多少左右就可以了?
非常期望得到回复~
The text was updated successfully, but these errors were encountered: