关于测试时query集的划分 #15

HeapRQ · 2020-08-24T07:17:27Z

请问测试集如果没有标签，仅有句子，需要判断关系，这时候没法根据标签划分support集和query集，如何处理（测试的时候模型就只能处理划分好support集和query集的数据吗？）

gaotianyu1350 · 2020-08-24T07:24:57Z

可以随机sample support和query数据，详细的方式可以参考我们的代码。

在提交codalab测试的时候，会给定support和query instances，具体的格式可以参加codalab提交教程。

HeapRQ · 2020-08-24T07:46:49Z

感谢回复，但我没太懂您的意思。代码中对于每一个类别中K、Q条数据的sample确实是随机的，我观察到您的代码中数据集都是根据类别划分好范围的，代码中的随机采样是根据每个类的scope随机采样K、Q条数据，train、val、test都是如此。如我之前描述的那样，现在我们的测试集没有标签，无法根据每个类别采样数据得到query矩阵，这部分应该如何处理？

gaotianyu1350 · 2020-08-24T08:00:34Z

在train的时候也是在整个train集合中采样support和query的。你说的“测试集”指的是什么呢，指的是在线平台提交评测时候的测试集吗？因为FewRel的测试是在线的，测试集数据整个都没有公开，只有train，val

HeapRQ · 2020-08-24T08:07:04Z

是的，指的就是在线平台提交评测时候的测试集。因为这部分数据没有标签无法根据标签采样，按照我的理解没办法根据类别scope处理成hatt-proto模型的query矩阵。

gaotianyu1350 · 2020-08-24T08:09:51Z

可以参考这个网页https://worksheets.codalab.org/worksheets/0xfa50492237e94afcaf66232d7357968c/

生成的input.json中每个测例都分为meta-train和meta-test两部分，meta-train就是support，meta-test就是query

HeapRQ · 2020-08-24T08:39:09Z

请问这个网址是对ori-data划分train、val、test数据的吗，感觉还是没有解决我的困惑。我描述一下我的问题吧。现在我的数据有train、val、test集，有标签噪声问题存在。train集有35个类，NA类占绝大部分（90%以上），其它类别最少只有9条句子。我将这部分训练数据处理成35ways-4shot输入模型训练。但在测试的时候出现了问题。测试集中NA同样占绝大部分，但有关系的类别中数量中有些只有1条甚至0条，没办法处理成35ways-4shot的形式进行测试。我想问的是如何利用根据训练集生成的hatt-proto模型，对测试集的句子关系做出预测。

gaotianyu1350 · 2020-08-24T10:53:40Z

你说的这个数据集的类别是否是train / val / test共享的？FewRel当中train / val / test集的关系类型是没有交集的，N-way K-shot问题的设定就是这样的。

HeapRQ · 2020-08-24T11:08:57Z

对的，train/val/test的类别是一致的，确定的35种类别，训练集35种类别的句子都有，测试集会有一些类别没有。那请问这种情况就不能使用您的模型了吗

gaotianyu1350 · 2020-08-24T11:21:17Z

这种情况不适合用我们的模型哈，我们的模型针对的是N-way K-shot的few-shot场景。

HeapRQ · 2020-08-24T11:23:37Z

......好的，感谢您的解答。

gaotianyu1350 closed this as completed Aug 24, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

关于测试时query集的划分 #15

关于测试时query集的划分 #15

HeapRQ commented Aug 24, 2020

gaotianyu1350 commented Aug 24, 2020

HeapRQ commented Aug 24, 2020

gaotianyu1350 commented Aug 24, 2020

HeapRQ commented Aug 24, 2020

gaotianyu1350 commented Aug 24, 2020

HeapRQ commented Aug 24, 2020

gaotianyu1350 commented Aug 24, 2020

HeapRQ commented Aug 24, 2020

gaotianyu1350 commented Aug 24, 2020

HeapRQ commented Aug 24, 2020

关于测试时query集的划分 #15

关于测试时query集的划分 #15

Comments

HeapRQ commented Aug 24, 2020

gaotianyu1350 commented Aug 24, 2020

HeapRQ commented Aug 24, 2020

gaotianyu1350 commented Aug 24, 2020

HeapRQ commented Aug 24, 2020

gaotianyu1350 commented Aug 24, 2020

HeapRQ commented Aug 24, 2020

gaotianyu1350 commented Aug 24, 2020

HeapRQ commented Aug 24, 2020

gaotianyu1350 commented Aug 24, 2020

HeapRQ commented Aug 24, 2020