姓名 | 介绍 | 个人主页 |
---|---|---|
刘羽中 | 数据科学从业者,Datawhale成员 | https://www.zhihu.com/people/finlayliu |
杨毅远 | 清华大学,Datawhale成员 | https://yyysjz1997.github.io/ |
张晋 | 北京理工大学,Datawhale成员 | https://blog.csdn.net/weixin_44585839 |
雷钲仪 | 华东师范大学,Datawhale成员 | |
周郴莲 | 东北石油大学,Datawhale成员 | https://blog.csdn.net/weixin_42691585 |
宋怡然 | 上海交通大学,Datawhale成员 | |
姚童 | 华北电力大学,Datawhale成员 |
本次新人赛是Datawhale与天池联合发起的0基础入门系列赛事第五场 —— 零基础入门数据分析之学术前沿趋势分析。
赛题以数据分析为背景,要求选手使用公开的arXiv论文完成对应的数据分析操作。与之前的数据挖掘赛题不同,本次赛题不仅要求选手对数据进行建模,而且需要选手利用赛题数据完成具体的可视化分析。
为更好的引导大家入门,我们为本赛题定制了学习方案和学习任务,其中包括数据科学库使用(Pandas
、Numpy
和Matplotlib
)、数据分析介绍和数据分析工具使用三部分。在具体任务中我们将讲解具体工具和使用和完成任务的过程。
通过对本方案的完整学习,可以帮助掌握数据分析基本技能。同时我们也将提供专属的视频直播学习通道。
- 组队、修改群昵称。
- 熟悉打卡规则。
Task1:论文数据统计(3天)Link
- 学习主题:论文数量统计(数据统计任务),统计2019年全年,计算机各个方向论文数量;
- 学习内容:赛题理解、
Pandas
读取数据、数据统计 ; - 学习成果:学习
Pandas
基础;
Task2:论文作者统计(3天)Link
- 学习主题:论文作者统计(数据统计任务),统计所有论文作者出现评率Top10的姓名;
- 学习内容:作者姓名识别和统计;
- 学习成果:学习字符串基本操作、
Matplotlib
基础使用、Seaborn
基础使用;
Task3:论文代码统计(3天)Link
- 学习主题:论文代码统计(数据统计任务),统计所有论文类别下包含源代码论文的比例;
- 学习内容:代码链接识别和统计;
- 学习成果:学会使用正则表达式;
Task4:论文种类分类(3天)Link
- 学习主题:论文种类分类(数据建模任务),利用已有数据建模,对新论文进行类别分类;
- 学习内容:使用论文标题完成类别分类;
- 学习成果:学会文本分类的基本方法、
TFIDF
等;
Task5:作者信息关联(3天)Link
- 学习主题:作者信息关联(数据建模任务),对论文作者关系进行建模,统计最常出现的作者关系;
- 学习内容:构建作者关系图,挖掘作者关系;
- 学习成果:论文作者知识图谱、图关系挖掘;
本次赛事分为两个阶段,分别为正式赛及长期赛。
正式赛赛制:
- 选手报名成功后,选手下载数据,可以本地或天池PAI平台上完成数据统计分析;
- 选手需要自身需要完成数据分析,并进行可视化等相应操作。
- 选手需要在规定时间完成,并将可视化结果和代码公布在比赛论坛内部,并根据大众评审(帖子star数量)和举办方评审后得到最终排名;
在正式赛阶段,我们提供了如下统计统计任务:
任务1
:论文数量统计(数据统计任务):统计2019年全年,计算机各个方向论文数量;任务2
:论文作者统计(数据统计任务):统计所有论文作者出现评率Top10的姓名;任务3
:论文代码统计(数据统计任务):统计所有论文类别下包含源代码论文的比例;任务4
:论文分类(数据建模任务):利用已有数据建模,对新论文进行类别分类;任务5
:作者关联(数据建模任务):对论文作者关系进行建模,统计最常出现的作者关系;
当然我们推荐选手在我们提供的代码基础上完成自己的可视化任务(可自定义任务和具体分析目标),以下任务仅供参考:
- 任务1:统计分析每个类别论文在不同时期的热门关键词,分析arXiv论文常见关键词的发展趋势,并进行统计可视化;
- 任务2:统计分析每个类别论文综述句子的长度、情感和定冠词,并进行可视化;
- 任务3:统计分析论文作者的关联度,通过关联挖掘进行分析;
正式赛阶段评分规则:根据参赛选手在天池论坛公开代码,并正式赛结束时帖子star数量为标准(star相同则以fork为标准,fork相同则以浏览量为标准)。
在正式赛后,本场比赛将长期开放,报名和参赛无时间限制。 每天每位参赛选手可提交3次完成初赛打分;排行榜每小时更新,按照评测指标得分从高到低排序;排行榜将选择历史最优成绩进行展示;
arXiv 重要的学术公开网站,也是搜索、浏览和下载学术论文的重要工具。arXiv论文涵盖的范围非常广,涉及物理学的庞大分支和计算机科学的众多子学科,如数学、统计学、电气工程、定量生物学和经济学等等。
本次赛题将使用arXiv在公开的170万篇论文数据集,希望各位选手通过数据分析能够挖掘出最近学术的发展趋势和学术关键词。
数据集来源: https://www.kaggle.com/Cornell-University/arxiv
特别感谢 @LSGOMYP 对本项目的帮助与支持。