Skip to content

带人工标注的中文灾害数据集,将会持续更新。

Notifications You must be signed in to change notification settings

lzquancumtb/CrisisNLP-C

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

26 Commits
 
 
 
 
 
 

Repository files navigation

CrisisNLP-C

带人工标注的中文灾害数据集。

数据来源: 中文新闻网站、社交媒体数据。

数据规模: 数据集持续更新,目前接近6000条微博博文。

人工标注过程(旧分类方式): 我们将人工标注过程划分为两个层级任务。其中,第一项任务是根据博文含有的信息量将其分为“有用信息”、“无用信息”和“不能判断”3种类型。 第二项任务是从微博博文中识别可操作的关键信息,如受伤或死亡人员的报告、基础设施损坏、车辆损坏等,共划分为11种类型。

具体标注任务:

任务1:信息量判别 本任务的目的是确定是否给定的博文对于应急响应或应急救援有帮助。这里的应急响应包括抢救生命、减轻痛苦和重建家园等。具体来讲,可以是帮助无家可归者, 提供食物、水、住所、医疗等给受害者,维修道路、桥梁等关键基础设施等。因此,定义为以下3种类型:

有用信息:如果该微博描述的内容对于应急响应或者应急救援有帮助。 无用信息:如果该微博描述的内容对于应急响应或者应急救援没有任何帮助。 不能判断:与灾害事件没有任何关系。

任务2:信息类型判别

灾害损失评估:如果该微博涉及到灾害的损失情况,例如某地区共计损失1000万。 公共基础设施损坏:如果该微博描述了任何由于地震、台风等灾害导致的建筑物结构损坏,例如受损的房屋、道路、树木;被淹的房屋、道路;堵塞的道路、 桥梁;倒塌的桥梁、电线杆等。 车辆损坏:如果该微博描述了任何类型的损坏车辆,如小汽车、卡车、电车、火车、船舶等。 志愿活动与捐赠活动:如果该微博描述了任何类型的志愿服务或捐赠活动,如收容所中的人、捐款、献血或志愿服务等。 伤者或死者:如果该微博描述了伤者或死者。 失踪人员、被困人员或被发现人员:如果该微博描述了因灾害事件导致的失踪、被困或者找到的人员。 受灾人员:如果该微博描述了受灾难影响的人员,如坐在外面的人、排队接受援助的人、需要避难设施的人等(排除类型“伤者或死者”和“失踪人员、被困人员或 被发现人员”)。 提醒与建议:如果该微博描述了任何有关减少灾害伤亡的建议,如各类预警、道路引导等。 救援活动:如果该微博描述了任何类型的救援,例如被运送到安全地点的人员、从危险区域疏散的人员、接受医疗救助或食物的人员等。 慰问与情感支持:如果该微博描述的是感谢、祈祷等。 其他相关信息:如果该微博描述的内容不属于以上任何类别,但它仍然对应急响应或应急救援有帮助,则选择此项。

在标注一轮之后,发现信息分类上存在问题,因而对任务二的类别进行了调整,以后将采用新的类型分类标准进行标注。

项目维护单位:应急管理部 华北科技学院 管理学院 应急管理团队

如要使用,请标注引用,谢谢!

About

带人工标注的中文灾害数据集,将会持续更新。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published