GitHub - yushiyin/xgbspark-text-classification: XGBoost on Spark for Chinese Text Classification

Name		Name	Last commit message	Last commit date
Latest commit History 18 Commits
.idea		.idea
src/main		src/main
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
pom.xml		pom.xml
xgbspark-text-classification.iml		xgbspark-text-classification.iml

Repository files navigation

Features

Data Source: Hive
Word Segmentation: Ansj
Feature Engineering: NGram + TF-IDF or Pre-Trained Word2Vec
Classification Algorithm: XGBoost
Model Training: Spark Pipeline
Model Selection and Tuning: Cross Validation + Grid Search

Environments

Spark 2.1.1
Hive 1.2.1
XGBoost4J-Spark 0.7
Ansj 5.1.2

About

XGBoost on Spark for Chinese Text Classification

Apache-2.0 license

Report repository

Releases

No releases published

Packages

No packages published

Languages

Scala 100.0%