云移杯 2018

2018年云移杯---景区情感词分类（评分1-5）

数据集：链接：https://pan.baidu.com/s/1-z2QBjXCnd2dAf-eZFeDXA 密码：f06v

题目描述

本赛题通过获取网友反馈的评论文本跟评论分值做训练数据，期望通过机器学习得出评论文本与评论分值之间的关系。本赛题任务要求必须使用本赛题提供的数据作为训练集，不得额外扩展训练集。允许使用第三方提供的数据字典文件，但字典内容不能与比赛文本一致。

1.题目数据分析

题目数据属于基本的中文文本，含部分英文字符；题目数据初赛+复赛约三万数据，且数据多为旅游评论数据（一部分数据源于驴妈妈，携程等第三方平台爬虫获取）

2.基本方案

由于题目label区间为1-5，且评分之间存在一个潜在的等级关联。（其实是评分方案是mse，所以采用了回归方案，分类效果不太好，没有采用（我认为这个地方不合理，故意优化mse，可能导致其他指标效果变差））

ps：因为只是一个比赛，直接优化的是mse指标，之前做过一些实验，如果优化l1，可以使图像轮廓清晰，l2指标也很好，但是其roc曲线特别差，如果优化l2，可以使l1指标较好，且roc曲线比较平滑

2.1 TFIDF+岭回归（中英）

2.2 根据预料自训练w2v词向量+深度学习模型（textcnn，gru，rcnn）（中）

2.3 队友的深度学习模型 + lightGBM + stacking

2.4 伪前缀匹配规则修正 2.1，2.2，2.3的模型

好的评论千篇一律，坏的评论大多雷同

2.5 简单的加权融合

代码整理后尽快上传

自身问题：数据的预处理工作较少，数据理解不深刻

基本结构图

Name		Name	Last commit message	Last commit date
Latest commit History 17 Commits
0.trans.py		0.trans.py
1.png		1.png
README.md		README.md
Trans_ridge_model.py		Trans_ridge_model.py
attention_lstm.py		attention_lstm.py
cnn_best.py		cnn_best.py
random_version.py		random_version.py
rcnn_addition_w2v.py		rcnn_addition_w2v.py
rule_use_cor.py		rule_use_cor.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

云移杯 2018

题目描述

1.题目数据分析

2.基本方案

ps：因为只是一个比赛，直接优化的是mse指标，之前做过一些实验，如果优化l1，可以使图像轮廓清晰，l2指标也很好，但是其roc曲线特别差，如果优化l2，可以使l1指标较好，且roc曲线比较平滑

2.1 TFIDF+岭回归（中英）

2.2 根据预料自训练w2v词向量+深度学习模型（textcnn，gru，rcnn）（中）

2.3 队友的深度学习模型 + lightGBM + stacking

2.4 伪前缀匹配规则修正 2.1，2.2，2.3的模型

2.5 简单的加权融合

自身问题：数据的预处理工作较少，数据理解不深刻

About

Releases

Packages

Languages

dzhgb/2018-YunYiCup-Emotion-classification

Folders and files

Latest commit

History

Repository files navigation

云移杯 2018

题目描述

1.题目数据分析

2.基本方案

ps：因为只是一个比赛，直接优化的是mse指标，之前做过一些实验，如果优化l1，可以使图像轮廓清晰，l2指标也很好，但是其roc曲线特别差，如果优化l2，可以使l1指标较好，且roc曲线比较平滑

2.1 TFIDF+岭回归（中英）

2.2 根据预料自训练w2v词向量+深度学习模型（textcnn，gru，rcnn）（中）

2.3 队友的深度学习模型 + lightGBM + stacking

2.4 伪前缀匹配规则修正 2.1，2.2，2.3的模型

2.5 简单的加权融合

自身问题 ： 数据的预处理工作较少，数据理解不深刻

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

自身问题：数据的预处理工作较少，数据理解不深刻

Packages