欢迎点赞评论转发。
baseline 参考 baseline2.0:带你进前十, tfidf+lr lb:0.77256
我这份 baseline 在上述两个开源的基础上主要对特征进行了选择,使用卡方检验、逆文档频率 idf,以及用带 L1 正则的基于模型的特征选择;另外除了提取 tfidf 特征之外还加入了词频计数特征。特征选择之后线下 cv 相较不选择提升了一个点左右,甚至可以达到 0.80,但是线上成绩没有提高,只有 0.77xxx,原因可能在于训练集和测试集分布不太一致,毕竟测试集中好像有几万个词没在训练集中出现过。
代码运行时间较长,不建议直接运行,可以在其他训练集测试集数据分布类似的数据集上进行尝试。
使用fasttext快速搭建文本分类模型,已录制视频讲解,视频地址