-
Notifications
You must be signed in to change notification settings - Fork 35
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于测试时query集的划分 #15
Comments
可以随机sample support和query数据,详细的方式可以参考我们的代码。 在提交codalab测试的时候,会给定support和query instances,具体的格式可以参加codalab提交教程。 |
感谢回复,但我没太懂您的意思。代码中对于每一个类别中K、Q条数据的sample确实是随机的,我观察到您的代码中数据集都是根据类别划分好范围的,代码中的随机采样是根据每个类的scope随机采样K、Q条数据,train、val、test都是如此。如我之前描述的那样,现在我们的测试集没有标签,无法根据每个类别采样数据得到query矩阵,这部分应该如何处理? |
在train的时候也是在整个train集合中采样support和query的。你说的“测试集”指的是什么呢,指的是在线平台提交评测时候的测试集吗?因为FewRel的测试是在线的,测试集数据整个都没有公开,只有train,val |
是的,指的就是在线平台提交评测时候的测试集。因为这部分数据没有标签无法根据标签采样,按照我的理解没办法根据类别scope处理成hatt-proto模型的query矩阵。 |
可以参考这个网页https://worksheets.codalab.org/worksheets/0xfa50492237e94afcaf66232d7357968c/ 生成的input.json中每个测例都分为meta-train和meta-test两部分,meta-train就是support,meta-test就是query |
请问这个网址是对ori-data划分train、val、test数据的吗,感觉还是没有解决我的困惑。我描述一下我的问题吧。现在我的数据有train、val、test集,有标签噪声问题存在。train集有35个类,NA类占绝大部分(90%以上),其它类别最少只有9条句子。我将这部分训练数据处理成35ways-4shot输入模型训练。但在测试的时候出现了问题。测试集中NA同样占绝大部分,但有关系的类别中数量中有些只有1条甚至0条,没办法处理成35ways-4shot的形式进行测试。我想问的是如何利用根据训练集生成的hatt-proto模型,对测试集的句子关系做出预测。 |
你说的这个数据集的类别是否是train / val / test共享的?FewRel当中train / val / test集的关系类型是没有交集的,N-way K-shot问题的设定就是这样的。 |
对的,train/val/test的类别是一致的,确定的35种类别,训练集35种类别的句子都有,测试集会有一些类别没有。那请问这种情况就不能使用您的模型了吗 |
这种情况不适合用我们的模型哈,我们的模型针对的是N-way K-shot的few-shot场景。 |
......好的,感谢您的解答。 |
请问测试集如果没有标签,仅有句子,需要判断关系,这时候没法根据标签划分support集和query集,如何处理(测试的时候模型就只能处理划分好support集和query集的数据吗?)
The text was updated successfully, but these errors were encountered: