Skip to content

Commit

Permalink
Revise document to fit 3.3.0
Browse files Browse the repository at this point in the history
  • Loading branch information
Oneplus committed May 23, 2015
1 parent eac0146 commit d4e3b13
Show file tree
Hide file tree
Showing 4 changed files with 288 additions and 241 deletions.
2 changes: 1 addition & 1 deletion doc/install.rst
Original file line number Diff line number Diff line change
Expand Up @@ -12,7 +12,7 @@ LTP包括两部分,分别是

同时,你可以从以下一些地方获得LTP的模型。

* `百度云 <http://pan.baidu.com/share/link?shareid=1988562907&uk=2738088569>`_ 当前模型版本3.2.0
* `百度云 <http://pan.baidu.com/share/link?shareid=1988562907&uk=2738088569>`_ 当前模型版本3.3.0

安装CMake
---------
Expand Down
49 changes: 48 additions & 1 deletion doc/ltpserver.rst
Original file line number Diff line number Diff line change
Expand Up @@ -9,7 +9,54 @@
搭建LTP Server
---------------

LTP Server在轻量级服务器程序mongoose基础上开发。在编译LTP源码之后,运行ltp_server就可以启动LTP Server。LTP Server启动后,将会监听12345 [#f1]_ 端口的HTTP请求。
LTP Server在轻量级服务器程序mongoose基础上开发。在编译LTP源码之后,运行`./bin/ltp_server`就可以启动LTP Server。::

ltp_server in LTP 3.3.0 - (C) 2012-2015 HIT-SCIR
The HTTP server frontend for Language Technology Platform.
usage: ./ltp_server <options>
options:
--port arg The port number [default=12345].
--threads arg The number of threads [default=1].
--last-stage arg The last stage of analysis. This option can be used
when the user onlywants to perform early stage
analysis, like only segment without postagging.value
includes:
- ws: Chinese word segmentation
- pos: Part of speech tagging
- ne: Named entity recognization
- dp: Dependency parsing
- srl: Semantic role labeling (equals to all)
- all: The whole pipeline [default]
--segmentor-model arg The path to the segment model
[default=ltp_data/cws.model].
--segmentor-lexicon arg The path to the external lexicon in segmentor
[optional].
--postagger-model arg The path to the postag model
[default=ltp_data/pos.model].
--postagger-lexicon arg The path to the external lexicon in postagger
[optional].
--ner-model arg The path to the NER model [default=ltp_data/ner.model
].
--parser-model arg The path to the parser model
[default=ltp_data/parser.model].
--srl-data arg The path to the SRL model directory
[default=ltp_data/srl_data/].
--log-level arg The log level:
- 0: TRACE level
- 1: DEBUG level
- 2: INFO level [default]
-h [ --help ] Show help information


其中较为重要的参数包括:
- port:指定LTP server监听的端口
- threads:指定LTP server运行的线程数,线程数影响并发的处理能力
- log-level:指定日志级别,TRACE级别最低,显示日志信息最详细。INFO级别最高,显示日志最粗略。WARN与ERROR级日志默认显示。

其余参数用以指定模型路径,具体含义与`ltp_test`相同。

请求LTP Server
---------------
Expand Down
116 changes: 76 additions & 40 deletions doc/ltptest.rst
Original file line number Diff line number Diff line change
Expand Up @@ -8,7 +8,7 @@ LTP模型文件

LTP模型文件可以从以下渠道获取:

* `百度云 <http://pan.baidu.com/share/link?shareid=1988562907&uk=2738088569>`_ 当前模型版本3.1.2
* `百度云 <http://pan.baidu.com/share/link?shareid=1988562907&uk=2738088569>`_ 当前模型版本3.3.0

LTP提供的模型包括:

Expand All @@ -30,45 +30,81 @@ LTP提供的模型包括:
ltp_test主程序
--------------

:file:`ltp_test` 是一个整合LTP中各模块的命令行工具。它完成加载模型,依照指定方法执行分析的功能。:file:`ltp_test` 加载的模型通过配置文件指定。配置文件的格式如下::

target = all
segmentor-model = ltp_data/cws.model
postagger-model = ltp_data/pos.model
parser-model = ltp_data/parser.model
ner-model = ltp_data/ner.model
srl-data = ltp_data/srl_data

其中

* `target` 项指定要加载的模型,合法的选项包括
- `ws` 加载分词模型
- `pos` 加载分词、词性标注模型
- `ner` 加载分词、词性标注、命名实体识别模型
- `dp` 加载分词、词性标注、依存句法分析模型
- `srl` 加载分词、词性标注、命名实体识别、依存句法分析、语义角色标注模型
- `all` 加载分词、词性标注、命名实体识别、依存句法分析、语义角色标注模型
* `segmentor-model` 项指定分词模型文件路径
* `postagger-model` 项指定词性标注模型文件路径
* `parser-model` 项指定依存句法分析模型文件路径
* `ner-model` 项指定命名实体识别模型文件路径
* `srl-data` 项指定语言角色标注模型文件路径

使用方法
--------

:file:`ltp_test` 的使用方法如下::

./ltp_test [配置文件路径] [分析任务] [待分析文件]

分析任务(与上文关于 `target` 配置项的定义类似):

* `ws` - 分词
* `pos` - 词性标注
* `ner` - 命名实体识别
* `dp` - 依存句法分析
* `srl` - 语义角色标注
* `all` - 全部任务
:file:`ltp_test` 是一个整合LTP中各模块的命令行工具。它完成加载模型,依照指定方法执行分析的功能。:file:`ltp_test` 加载的模型通过配置文件指定。编译后运行::

$ ./bin/ltp_test
ltp_test in LTP 3.3.0 - (C) 2012-2015 HIT-SCIR
The console application for Language Technology Platform.
usage: ./ltp_test <options>
options:
--threads arg The number of threads [default=1].
--last-stage arg The last stage of analysis. This option can be used
when the user onlywants to perform early stage
analysis, like only segment without postagging.value
includes:
- ws: Chinese word segmentation
- pos: Part of speech tagging
- ne: Named entity recognization
- dp: Dependency parsing
- srl: Semantic role labeling (equals to all)
- all: The whole pipeline [default]
--input arg The path to the input file.
--segmentor-model arg The path to the segment model
[default=ltp_data/cws.model].
--segmentor-lexicon arg The path to the external lexicon in segmentor
[optional].
--postagger-model arg The path to the postag model
[default=ltp_data/pos.model].
--postagger-lexicon arg The path to the external lexicon in postagger
[optional].
--ner-model arg The path to the NER model [default=ltp_data/ner.model
].
--parser-model arg The path to the parser model
[default=ltp_data/parser.model].
--srl-data arg The path to the SRL model directory
[default=ltp_data/srl_data/].
--debug-level arg The debug level.
-h [ --help ] Show help information


ltp_test通过命令行参数指定分析任务与模型路径。其中,

* segmentor-model:指定分词模型
* segmentor-lexicon:指定分词词典路径
* postagger-model:指定词性标注模型
* postagger-lexicon:指定词性标注词典路径
* parser-model:指定依存句法分析模型
* ner-model:指定命名实体识别模型
* srl-data:指定语言角色标注模型
* threads:指定线程数
* input:指定输入文件,如果输入文件未指定或打开失败,将使用标准输入
* last-stage:指定分析的最终步骤。这一参数将在Pipeline与last-stage中详细说明

分析结果以xml格式显示在stdout中。关于xml如何表示分析结果,请参考**使用ltp_server**结果一节。

Pipeline与last-stage参数
------------------------

分词、词性标注、句法分析一系列任务之间存在依赖关系。举例来讲,对于词性标注,必须在分词结果之上进行才有意。LTP中提供的5种分析之间的依赖关系如下所示:

+--------------+------+--------+
| 任务 | 标记 | 依赖 |
+==============+======+========+
| 分词 | ws ||
+--------------+------+--------+
| 词性标注 | pos | ws |
+--------------+------+--------+
| 依存句法分析 | dp | pos |
+--------------+------+--------+
| 命名实体识别 | ne | pos |
+--------------+------+--------+
| 语义角色标注 | srl | dp, ne |
+--------------+------+--------+

默认情况下,LTP将进行至语义角色标注的分析。但是,对于一部分用户,某些分析并不必要。举例来讲,如果用户只需进行词性标注,则ltp_test的pipeline分析只需进行到pos,`last-stage`用来指明分析的最后状态。同时,如果`last-stage`指定为pos,句法分析、命名实体识别和语义角色标注的模型将不被加载。


分析结果以xml格式显示在stdout中。关于xml如何表示分析结果,请参考理解 :ref:`ltml-reference-label` 一节。

Expand Down
Loading

0 comments on commit d4e3b13

Please sign in to comment.