Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

请问用plato-2跑中文模型,loss一般下降到多少? #120

Open
cingtiye opened this issue Mar 14, 2022 · 8 comments
Open

请问用plato-2跑中文模型,loss一般下降到多少? #120

cingtiye opened this issue Mar 14, 2022 · 8 comments

Comments

@cingtiye
Copy link

cingtiye commented Mar 14, 2022

您好,我用plato-2跑中文模型(目前跑的是第一阶段),我感觉我的学习率是不是设置小了,我设置的为1e-5,跑了1.8M个步长(batch_size=32),loss下降到2.66,尽管loss一直在下降,但是我觉得太慢了。我是不是应该把学习率设置大一点,5e-4或者2e-5。另外,我想咨询一下第一阶段的loss一般下降到多少左右就可以了?

非常期望得到回复~

@sserdoubleh
Copy link
Collaborator

跑预训练的话你现在设置的学习率太低了,32L的可以设置2e-4,24L的可以5e-4

@ZeyuTeng96
Copy link

您好,我用plato-2跑中文模型(目前跑的是第一阶段),我感觉我的学习率是不是设置小了,我设置的为1e-5,跑了1.8M个步长(batch_size=32),loss下降到2.66,尽管loss一直在下降,但是我觉得太慢了。我是不是应该把学习率设置大一点,5e-4或者2e-5。另外,我想咨询一下第一阶段的loss一般下降到多少左右就可以了?

非常期望得到回复~

大佬,能否指教一下如何将英文的plato-2模型适用于中文的多轮对话任务?

@cingtiye
Copy link
Author

你好。
中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的EVA2.0

@ZeyuTeng96
Copy link

你好。 中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢,只看到6层的plato-mini.。感觉这个模型有点小。所以,我才想尝试用大一点的plato模型,然后就来这里看plato-2。发现并没有开源中文版本,但是看到讨论好多人都将英文版本转换成中文版本了。

@cingtiye
Copy link
Author

你好。 中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢,只看到6层的plato-mini.。感觉这个模型有点小。所以,我才想尝试用大一点的plato模型,然后就来这里看plato-2。发现并没有开源中文版本,但是看到讨论好多人都将英文版本转换成中文版本了。

image

大规模数据预训练模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"

对话比赛数据微调模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"

@ZeyuTeng96
Copy link

你好。 中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢,只看到6层的plato-mini.。感觉这个模型有点小。所以,我才想尝试用大一点的plato模型,然后就来这里看plato-2。发现并没有开源中文版本,但是看到讨论好多人都将英文版本转换成中文版本了。

image

大规模数据预训练模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"

对话比赛数据微调模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"

这两个模型我都用过,大佬用过嘛?我用的DuConv这个数据集在12层的luge模型上进行微调,验证集的困惑度最低也就4.42左右,模型效果感觉不佳。而且无法复现他链接里能达到的微调BLEU值。

@cingtiye
Copy link
Author

你好。 中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢,只看到6层的plato-mini.。感觉这个模型有点小。所以,我才想尝试用大一点的plato模型,然后就来这里看plato-2。发现并没有开源中文版本,但是看到讨论好多人都将英文版本转换成中文版本了。

image

大规模数据预训练模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"

对话比赛数据微调模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"

这两个模型我都用过,大佬用过嘛?我用的DuConv这个数据集在12层的luge模型上进行微调,验证集的困惑度最低也就4.42左右,模型效果感觉不佳。而且无法复现他链接里能达到的微调BLEU值。

我没有用plato的模型

@ZeyuTeng96
Copy link

你好。 中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型(12层和6层)。如果你只是想微调一下对话模型或者直接用现有的对话模型的话,你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢,只看到6层的plato-mini.。感觉这个模型有点小。所以,我才想尝试用大一点的plato模型,然后就来这里看plato-2。发现并没有开源中文版本,但是看到讨论好多人都将英文版本转换成中文版本了。

image

大规模数据预训练模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"

对话比赛数据微调模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"

这两个模型我都用过,大佬用过嘛?我用的DuConv这个数据集在12层的luge模型上进行微调,验证集的困惑度最低也就4.42左右,模型效果感觉不佳。而且无法复现他链接里能达到的微调BLEU值。

我没有用plato的模型

大佬,能否加个微信,我找大佬指教下。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

3 participants