Skip to content

Commit

Permalink
修订文档,支持csv格式的词典
Browse files Browse the repository at this point in the history
  • Loading branch information
hankcs committed Apr 7, 2017
1 parent cf4cebc commit b424d81
Showing 1 changed file with 8 additions and 5 deletions.
13 changes: 8 additions & 5 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -65,15 +65,15 @@ HanLP: Han Language Processing

HanLP下载地址:https://github.com/hankcs/HanLP/releases

Solr5.x、Lucene5.x插件https://github.com/hankcs/hanlp-solr-plugin
Solr、Lucene插件https://github.com/hankcs/hanlp-solr-plugin

更多细节:https://github.com/hankcs/HanLP/wiki

------

## 下载与配置

###方式一、Maven
### 方式一、Maven

为了方便用户,特提供内置了数据包的Portable版,只需在pom.xml加入:

Expand All @@ -87,7 +87,7 @@ Solr5.x、Lucene5.x插件:https://github.com/hankcs/hanlp-solr-plugin

零配置,即可使用基本功能(除CRF分词、依存句法分析外的全部功能)。如果用户有自定义的需求,可以参考方式二,使用hanlp.properties进行配置。

###方式二、下载jar、data、hanlp.properties
### 方式二、下载jar、data、hanlp.properties

**HanLP**将数据与程序分离,给予用户自定义的自由。

Expand Down Expand Up @@ -718,9 +718,11 @@ public class DemoDependencyParser

- 词频词性词典
* 每一行代表一个单词,格式遵从`[单词] [词性A] [A的频次] [词性B] [B的频次] ...`
* 支持省略词性和频次,直接一行一个单词。
* `.txt`词典文件的分隔符为空格或制表符,所以不支持含有空格的词语。如果需要支持空格,请使用英文逗号`,`分割的**纯文本**`.csv`文件。在使用Word等富文本编辑器时,则请注意保存为**纯文本**形式。
- 词频词典
* 每一行代表一个单词,格式遵从`[单词] [单词的频次]`
* 每一行的分隔符为空格符或制表符
* 每一行的分隔符为空格或制表符。

少数词典有自己的专用格式,比如同义词词典兼容《同义词词林扩展版》的文本格式,而转移矩阵词典则是一个csv表格。

Expand Down Expand Up @@ -791,4 +793,5 @@ HanLP.Config.enableDebug();

作者 [@hankcs](http://weibo.com/hankcs/)

2014年12月16日
2014年12月16日

0 comments on commit b424d81

Please sign in to comment.