2018 kaggle "Quora Insincere Questions Classification" 文本分类竞赛

欢迎点赞评论转发。

2018 “达观杯”文本智能处理挑战赛

baseline 参考 baseline2.0：带你进前十， tfidf+lr lb：0.77256

我这份 baseline 在上述两个开源的基础上主要对特征进行了选择，使用卡方检验、逆文档频率 idf，以及用带 L1 正则的基于模型的特征选择；另外除了提取 tfidf 特征之外还加入了词频计数特征。特征选择之后线下 cv 相较不选择提升了一个点左右，甚至可以达到 0.80，但是线上成绩没有提高，只有 0.77xxx，原因可能在于训练集和测试集分布不太一致，毕竟测试集中好像有几万个词没在训练集中出现过。

代码运行时间较长，不建议直接运行，可以在其他训练集测试集数据分布类似的数据集上进行尝试。

2018CCF 景区口碑评价预测竞赛Baseline

使用fasttext快速搭建文本分类模型，已录制视频讲解，视频地址

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
.DS_Store		.DS_Store
CCF景区口碑评价分值预测-开源Baseline.ipynb		CCF景区口碑评价分值预测-开源Baseline.ipynb
README.md		README.md
kaggle_Quora_Insincere_Questions_Classification.ipynb		kaggle_Quora_Insincere_Questions_Classification.ipynb
注意力机制 Attention Mechanism.pdf		注意力机制 Attention Mechanism.pdf
达观长文本分类-Baseline.ipynb		达观长文本分类-Baseline.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

2018 kaggle "Quora Insincere Questions Classification" 文本分类竞赛

2018 “达观杯”文本智能处理挑战赛

2018CCF 景区口碑评价预测竞赛Baseline

About

Releases

Packages

Languages

wangle1218/NLP-competition-baseline

Folders and files

Latest commit

History

Repository files navigation

2018 kaggle "Quora Insincere Questions Classification" 文本分类竞赛

2018 “达观杯”文本智能处理挑战赛

2018CCF 景区口碑评价预测竞赛Baseline

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages