Project Information
![](https://ssl.gstatic.com/codesite/ph/images/star_off.gif "Click to star project")
Starred by 59 users
TextClassification, svm, TextMining, LSA, FeatureSelection, FeatureExtraction, DimensionReducing * |
文本挖掘无论在学术界还是在工业界都有很广泛的应用场景。而文本分类是文本挖掘中一个非常重要的手段与技术。现有的分类技术都已经非常成熟,SVM、KNN、Decision Tree、AN、NB在不同的应用中都展示出较好的效果,前人也在将这些分类算法应用于文本分类中做出许多出色的工作。但在实际的商业应用中,仍然有很多问题没有很好的解决,比如文本分类中的高维性和稀疏性、类别的不平衡、小样本的训练、Unlabeled样本的有效利用、如何选择最佳的训练样本等。这些问题都将导致**curve of dimension ** 、 过拟合等问题。 这个开源系统的目的是集众人智慧,将文本挖掘、文本分类前沿领域效果非常好的算法实现并有效组织,形成一条完整系统将文本挖掘尤其是文本分类的过程自动化。该系统提供了Python和Java两种版本。 该系统在封装** libsvm 、 liblinear 的基础上,又增加了 特征选择 、 LSA特征抽取 、 SVM模型参数选择 、 libsvm格式转化模块 ** 以及一些实用的工具。其主要特征如下:
**QuickStart里面提供了方便的使用指导 ** 该系统可以在命令行(Linux或cmd中)中直接使用,也可以在程序通过直接调用源程序使用。 在程序中使用。 #将TMSVM系统的路径加入到Python搜索路径中 import sys sys.path.insert(0,yourPath+"\tmsvm\src") import tms 在命令行中调用 #对data文件夹下的binary_seged.train文件进行训练。 $python auto_train.py [options] ../data/binary_seged.train #利用已经训练好的模型,对对data文件夹下的binary_seged.test文件预测 python predict.py ../data/binary_seged.train ../model/tms.config #对预测的结果进行分析,评判模型的效果 $python result_anlaysis.py ../tms.result 上面的调用形式都是使用系统中默认的参数,更具体、灵活的参数见程序调用接口 label value1 [value2]
本系统引用了libsvm、liblinear的包,非常感谢Chih-Jen Lin写出这么优秀的软件。本系统还引用了Pymmseg,非常感谢pluskid能为mmseg写出Python下可以直接使用的程序 从最初的想法萌生到第一版上线,中间试验了很多算法,最终因为效果不好删掉了很多代码,在这期间得到了许多人的帮助,非常感谢杨铮、江洋、敏知、施平等人的悉心指导。特别感谢丽红一直以来的默默支持。 A text mining system based on svm.This system focus on text classification based on the libsvm and liblinear, especially some key issues in text classification,for example high dimensionality , text vector sparse, unbalance training sample and so on. This system aim to build a complete system on all aspect in text mining by realizing some mature algorithm . This system has show outstanding effects in reality using,especially in information filtering problem |
forked from ranvane/tmsvm
-
Notifications
You must be signed in to change notification settings - Fork 0
ahmanz/tmsvm
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
Automatically exported from code.google.com/p/tmsvm
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published
Languages
- Python 82.9%
- Java 15.6%
- Shell 1.5%