Skip to content

Latest commit

 

History

History
 
 

sjjc

Folders and files

NameName
Last commit message
Last commit date

parent directory

..
 
 
 
 
 
 

CAIL2022 —— 事件检测

该项目为 CAIL2022——事件检测 赛道的代码和提交说明

报名地址 [link], 数据集下载 [link],CAIL2022官网[link]

选手交流QQ群:237633234

数据说明

本任务所使用的数据集来自于论文 LEVEN: A Large-Scale Chinese Legal Event Detection Dataset

关于任务的详细信息,请参考 thunlp/LEVEN

数据集格式信息如下:

train.jsonl 为训练集,格式如下

{
    "title": "李某波犯猥亵儿童罪一审刑事判决书",    //标题
    "id": "a6f3b705d93e441dbd3a29365e854193",  //文档id
    "crime": "猥亵儿童罪",                      //罪名
    "case_no": "(2014)梅兴法刑初字第344号",    //案号
    "content": [ //文档的内容
    		{
    		 "sentence":"...", //句子内容
    		 "tokens": ["...", "..."] //分词后的句子
			}
	],
	"events":[ //事件标注
        {
            "id": '0fd7970c76d64c5d9ac1c015609c028b', //事件id
            "type": '租用/借用',                       //事件类型
            "type_id": 22,                          //事件类型id(1-108)
            "mention":[ //事件提及
            	{
              		"trigger_word": "租住", //触发词
              		"sent_id": 0, //句子id
              		"offset": [41, 42], //句子中的位置
					"id": "2db165c25298aefb682cba50c9327e4f", //这个事件提及的id
              	}
             ]
        }
    ],
	"negative_triggers":[//触发词负样本
        {
            "trigger_word": "出生",
            "sent_id": 0,
            "offset": [21, 22],
			"id": "66571b43dcf9461cb7ce979875fc9287",
        }
    ]
}

test_stage1.jsonl 为第一阶段的测试集,格式与 train.jsonl 一致,但并未提供事件标注,选手需要为candidates 字段中的每一个candidate预测事件类型,评测方式参考 evaluate.py

{
    "title": "姚均飞强奸罪一审刑事判决书",           //标题
    "id": "9720823b46ea4efebb52539f2016d8b8",    //文档id
    "crime": "强奸罪",                           //罪名
    "case_no": "(2018)渝0154刑初280号",          //案号
    "content": [ //内容
    		{
    		 "sentence":"...", //句子id
    		 "tokens": ["...", "..."]  //分词后的句子
			}
	],
	"candidates":[ //事件触发词的候选集合,选手需要判断每个触发词所对应的事件类型
        {
            "trigger_word": "认识",
            "sent_id": 0,
            "offset": [28, 29],
			"id": "f3f93191743a4c63966f5c48f8f6383c",  //候选词id
        }
    ]
}

Baseline模型

我们提供了基于BERT的baseline模型 Baseline

运行run_train.sh 进行训练

运行run_infer.sh 进行预测并生成提交格式

提交的文件格式及组织形式

针对三个阶段,选手需要分别提交 results1.jsonl results2.jsonl results3.jsonl 的压缩后的zip文件

results1.jsonl 的每一行是一个json,字段如下

{
    "id": "40f9f0f02256402baab5a9c344c95c8f",    ////文档id
    "predictions": [
        {
            "id": "260f26bd1cf24c98bb18b85cea5ffcfc",   //候选词id
            "type_id": 0        //预测事件类型id (0-108)
        },
        {
            "id": "df6f2afc6f7a433dbbe2f54afac48bad",
            "type_id": 0
        },
     		...
     ]
}