Skip to content

Latest commit

 

History

History
23 lines (20 loc) · 925 Bytes

Readme.md

File metadata and controls

23 lines (20 loc) · 925 Bytes

2017 达观大数据推荐比赛

ECNUICA

组长: 陈璐 组员: 欧阳欣,张琪,周杰

文件结构说明

  • analysis 包含组员们所处理分析的文件
  • baseline 所有可执行代码
  • common 包含需要的一些工具类
  • libFM 包含一些模型的尝试(此处由于备份原因,未包含recsys等其他模型)
  • notebook 包含一些可视化表格或图片分析文件以及对raw文件处理后产出DFpickle的代码
  • raw 原始数据
  • result 执行代码后产生的结果文件

解题思路说明

通过分析数据及测试,采用了评分制进行热门新闻的重排序,评分依据有:

  1. 新闻热门程度
  2. 热门新闻排序
  3. 用户新闻类别兴趣 在此基础上,统计各类用户与新闻相关信息,加入了一些小规则并生成最终成绩。

结果生成

执行 baseline/baseline_pro.py 文件 即可生成结果在result文件夹下。