Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于测试时query集的划分 #15

Closed
HeapRQ opened this issue Aug 24, 2020 · 10 comments
Closed

关于测试时query集的划分 #15

HeapRQ opened this issue Aug 24, 2020 · 10 comments

Comments

@HeapRQ
Copy link

HeapRQ commented Aug 24, 2020

请问测试集如果没有标签,仅有句子,需要判断关系,这时候没法根据标签划分support集和query集,如何处理(测试的时候模型就只能处理划分好support集和query集的数据吗?)

@gaotianyu1350
Copy link
Collaborator

可以随机sample support和query数据,详细的方式可以参考我们的代码。

在提交codalab测试的时候,会给定support和query instances,具体的格式可以参加codalab提交教程。

@HeapRQ
Copy link
Author

HeapRQ commented Aug 24, 2020

感谢回复,但我没太懂您的意思。代码中对于每一个类别中K、Q条数据的sample确实是随机的,我观察到您的代码中数据集都是根据类别划分好范围的,代码中的随机采样是根据每个类的scope随机采样K、Q条数据,train、val、test都是如此。如我之前描述的那样,现在我们的测试集没有标签,无法根据每个类别采样数据得到query矩阵,这部分应该如何处理?

@gaotianyu1350
Copy link
Collaborator

在train的时候也是在整个train集合中采样support和query的。你说的“测试集”指的是什么呢,指的是在线平台提交评测时候的测试集吗?因为FewRel的测试是在线的,测试集数据整个都没有公开,只有train,val

@HeapRQ
Copy link
Author

HeapRQ commented Aug 24, 2020

是的,指的就是在线平台提交评测时候的测试集。因为这部分数据没有标签无法根据标签采样,按照我的理解没办法根据类别scope处理成hatt-proto模型的query矩阵。

@gaotianyu1350
Copy link
Collaborator

可以参考这个网页https://worksheets.codalab.org/worksheets/0xfa50492237e94afcaf66232d7357968c/

生成的input.json中每个测例都分为meta-train和meta-test两部分,meta-train就是support,meta-test就是query

@HeapRQ
Copy link
Author

HeapRQ commented Aug 24, 2020

请问这个网址是对ori-data划分train、val、test数据的吗,感觉还是没有解决我的困惑。我描述一下我的问题吧。现在我的数据有train、val、test集,有标签噪声问题存在。train集有35个类,NA类占绝大部分(90%以上),其它类别最少只有9条句子。我将这部分训练数据处理成35ways-4shot输入模型训练。但在测试的时候出现了问题。测试集中NA同样占绝大部分,但有关系的类别中数量中有些只有1条甚至0条,没办法处理成35ways-4shot的形式进行测试。我想问的是如何利用根据训练集生成的hatt-proto模型,对测试集的句子关系做出预测。

@gaotianyu1350
Copy link
Collaborator

你说的这个数据集的类别是否是train / val / test共享的?FewRel当中train / val / test集的关系类型是没有交集的,N-way K-shot问题的设定就是这样的。

@HeapRQ
Copy link
Author

HeapRQ commented Aug 24, 2020

对的,train/val/test的类别是一致的,确定的35种类别,训练集35种类别的句子都有,测试集会有一些类别没有。那请问这种情况就不能使用您的模型了吗

@gaotianyu1350
Copy link
Collaborator

这种情况不适合用我们的模型哈,我们的模型针对的是N-way K-shot的few-shot场景。

@HeapRQ
Copy link
Author

HeapRQ commented Aug 24, 2020

......好的,感谢您的解答。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants