forked from erliang20088/SkyLightAnalyzer
-
Notifications
You must be signed in to change notification settings - Fork 0
zhang637/SkyLightAnalyzer
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
1、基于二分查找的trie树结构一个分词组件,对词典有一定的依赖性,对“纯字母”、“纯数字”的字符串截断式匹配有过滤功能 2、该版本的分词的准确率主要依赖于词典的完整性,并未做新词发现、人名地名的识别,但对“纯字母”和“纯数字”的 截断式匹配进行了过滤。 3、词典词汇量为17.5万,trie树构建用时0.4s。 4、抽词速率为1150万字符/s,分词速率约为510万字符/s. 5、词典来源于ansj_seg分词,该分词的开发过程中主要参考了ansj_seg分词的数据结构与算法,在此表示感谢~
About
基于trie树结构一个分词组件,对词典有一定的依赖性,对“纯字母”、“纯数字”的字符串截断式匹配有过滤功能
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published