请问用plato-2跑中文模型，loss一般下降到多少？ #120

cingtiye · 2022-03-14T03:23:49Z

您好，我用plato-2跑中文模型（目前跑的是第一阶段），我感觉我的学习率是不是设置小了，我设置的为1e-5，跑了1.8M个步长（batch_size=32），loss下降到2.66，尽管loss一直在下降，但是我觉得太慢了。我是不是应该把学习率设置大一点，5e-4或者2e-5。另外，我想咨询一下第一阶段的loss一般下降到多少左右就可以了？

非常期望得到回复~

sserdoubleh · 2022-03-17T03:54:44Z

跑预训练的话你现在设置的学习率太低了，32L的可以设置2e-4，24L的可以5e-4

ZeyuTeng96 · 2022-07-11T10:06:15Z

您好，我用plato-2跑中文模型（目前跑的是第一阶段），我感觉我的学习率是不是设置小了，我设置的为1e-5，跑了1.8M个步长（batch_size=32），loss下降到2.66，尽管loss一直在下降，但是我觉得太慢了。我是不是应该把学习率设置大一点，5e-4或者2e-5。另外，我想咨询一下第一阶段的loss一般下降到多少左右就可以了？

非常期望得到回复~

大佬，能否指教一下如何将英文的plato-2模型适用于中文的多轮对话任务？

cingtiye · 2022-07-12T02:18:12Z

你好。
中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型（12层和6层）。如果你只是想微调一下对话模型或者直接用现有的对话模型的话，你可以试试开源的EVA2.0

ZeyuTeng96 · 2022-07-12T02:34:55Z

你好。中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型（12层和6层）。如果你只是想微调一下对话模型或者直接用现有的对话模型的话，你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢，只看到6层的plato-mini.。感觉这个模型有点小。所以，我才想尝试用大一点的plato模型，然后就来这里看plato-2。发现并没有开源中文版本，但是看到讨论好多人都将英文版本转换成中文版本了。

cingtiye · 2022-07-12T02:38:03Z

你好。中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型（12层和6层）。如果你只是想微调一下对话模型或者直接用现有的对话模型的话，你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢，只看到6层的plato-mini.。感觉这个模型有点小。所以，我才想尝试用大一点的plato模型，然后就来这里看plato-2。发现并没有开源中文版本，但是看到讨论好多人都将英文版本转换成中文版本了。

大规模数据预训练模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"

对话比赛数据微调模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"

ZeyuTeng96 · 2022-07-12T02:41:53Z

你好。中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型（12层和6层）。如果你只是想微调一下对话模型或者直接用现有的对话模型的话，你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢，只看到6层的plato-mini.。感觉这个模型有点小。所以，我才想尝试用大一点的plato模型，然后就来这里看plato-2。发现并没有开源中文版本，但是看到讨论好多人都将英文版本转换成中文版本了。

大规模数据预训练模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"

对话比赛数据微调模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"

这两个模型我都用过，大佬用过嘛？我用的DuConv这个数据集在12层的luge模型上进行微调，验证集的困惑度最低也就4.42左右，模型效果感觉不佳。而且无法复现他链接里能达到的微调BLEU值。

cingtiye · 2022-07-12T02:43:28Z

你好。中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型（12层和6层）。如果你只是想微调一下对话模型或者直接用现有的对话模型的话，你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢，只看到6层的plato-mini.。感觉这个模型有点小。所以，我才想尝试用大一点的plato模型，然后就来这里看plato-2。发现并没有开源中文版本，但是看到讨论好多人都将英文版本转换成中文版本了。

大规模数据预训练模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"

对话比赛数据微调模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"

这两个模型我都用过，大佬用过嘛？我用的DuConv这个数据集在12层的luge模型上进行微调，验证集的困惑度最低也就4.42左右，模型效果感觉不佳。而且无法复现他链接里能达到的微调BLEU值。

我没有用plato的模型

ZeyuTeng96 · 2022-07-12T02:46:52Z

你好。中文的plato-2是我自己收集网上数据集训练的。百度有开源中文的plato模型（12层和6层）。如果你只是想微调一下对话模型或者直接用现有的对话模型的话，你可以试试开源的EVA2.0

请问百度开源的12层plato预训练模型在哪里下载呢，只看到6层的plato-mini.。感觉这个模型有点小。所以，我才想尝试用大一点的plato模型，然后就来这里看plato-2。发现并没有开源中文版本，但是看到讨论好多人都将英文版本转换成中文版本了。

大规模数据预训练模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.pretrain.pdparams"

对话比赛数据微调模型

wget "https://dialogue.bj.bcebos.com/Knover/projects/lic2021/12L.finetune.pdparams"

这两个模型我都用过，大佬用过嘛？我用的DuConv这个数据集在12层的luge模型上进行微调，验证集的困惑度最低也就4.42左右，模型效果感觉不佳。而且无法复现他链接里能达到的微调BLEU值。

我没有用plato的模型

大佬，能否加个微信，我找大佬指教下。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

请问用plato-2跑中文模型，loss一般下降到多少？ #120

请问用plato-2跑中文模型，loss一般下降到多少？ #120

cingtiye commented Mar 14, 2022 •

edited

Loading

sserdoubleh commented Mar 17, 2022

ZeyuTeng96 commented Jul 11, 2022

cingtiye commented Jul 12, 2022

ZeyuTeng96 commented Jul 12, 2022

cingtiye commented Jul 12, 2022

ZeyuTeng96 commented Jul 12, 2022

大规模数据预训练模型

对话比赛数据微调模型

cingtiye commented Jul 12, 2022

大规模数据预训练模型

对话比赛数据微调模型

ZeyuTeng96 commented Jul 12, 2022

大规模数据预训练模型

对话比赛数据微调模型

请问用plato-2跑中文模型，loss一般下降到多少？ #120

请问用plato-2跑中文模型，loss一般下降到多少？ #120

Comments

cingtiye commented Mar 14, 2022 • edited Loading

sserdoubleh commented Mar 17, 2022

ZeyuTeng96 commented Jul 11, 2022

cingtiye commented Jul 12, 2022

ZeyuTeng96 commented Jul 12, 2022

cingtiye commented Jul 12, 2022

大规模数据预训练模型

对话比赛数据微调模型

ZeyuTeng96 commented Jul 12, 2022

大规模数据预训练模型

对话比赛数据微调模型

cingtiye commented Jul 12, 2022

大规模数据预训练模型

对话比赛数据微调模型

ZeyuTeng96 commented Jul 12, 2022

大规模数据预训练模型

对话比赛数据微调模型

cingtiye commented Mar 14, 2022 •

edited

Loading