使用的语料格式为:每一篇文档在一行中,文档分类号和文档内容由\t分割,文档内容内部各词有空格分割,生成语料时严格遵守改格式。
在使用时请注意,本算法retainPercent值如果设置的比较大,算法运行会很慢。实际测试结果:五十万个特征,加上特征IG值计算,20%时,时间在四十分钟左右,10%时时间在十分钟左右。
测试分类器是朴素贝叶斯分类器,正确率在81%左右,当然,这跟自己使用的语料有关系。使用手工语料测试的结果在百分之八十五以上,测试语料地址为:http://www.searchforum.org.cn/tansongbo/corpus.htm ,使用的是十二分类进行测试的。