- 百度云 当前模型版本3.3.1
模型名 | 说明 |
:file:`cws.model` | 分句模型,单文件 |
:file:`pos.model` | 词性标注模型,单文件 |
:file:`ner.model` | 命名实体识别模型,单文件 |
:file:`parser.model` | 依存句法分析模型,单文件 |
:file:`srl_data/` | 语义角色标注模型,多文件 |
:file:`ltp_test` 是一个整合LTP中各模块的命令行工具。它完成加载模型,依照指定方法执行分析的功能。:file:`ltp_test` 加载的模型通过配置文件指定。编译后运行:
$ ./bin/ltp_test ltp_test in LTP 3.3.2 - (C) 2012-2016 HIT-SCIR The console application for Language Technology Platform. usage: ./ltp_test <options> options: --threads arg The number of threads [default=1]. --last-stage arg The last stage of analysis. This option can be used when the user onlywants to perform early stage analysis, like only segment without postagging.value includes: - ws: Chinese word segmentation - pos: Part of speech tagging - ner: Named entity recognization - dp: Dependency parsing - srl: Semantic role labeling (equals to all) - all: The whole pipeline [default] --input arg The path to the input file. --segmentor-model arg The path to the segment model [default=ltp_data/cws.model]. --segmentor-lexicon arg The path to the external lexicon in segmentor [optional]. --postagger-model arg The path to the postag model [default=ltp_data/pos.model]. --postagger-lexicon arg The path to the external lexicon in postagger [optional]. --ner-model arg The path to the NER model [default=ltp_data/ner.model ]. --parser-model arg The path to the parser model [default=ltp_data/parser.model]. --srl-data arg The path to the SRL model directory [default=ltp_data/srl_data/]. --debug-level arg The debug level. -h [ --help ] Show help information
- segmentor-model:指定分词模型
- segmentor-lexicon:指定分词词典路径
- postagger-model:指定词性标注模型
- postagger-lexicon:指定词性标注词典路径
- parser-model:指定依存句法分析模型
- ner-model:指定命名实体识别模型
- srl-data:指定语言角色标注模型
- threads:指定线程数
- input:指定输入文件,如果输入文件未指定或打开失败,将使用标准输入
- last-stage:指定分析的最终步骤。这一参数将在 :ref:`pipeline-reference-label` 中详细说明
分析结果以xml格式显示在stdout中。关于xml如何表示分析结果,请参考理解 :ref:`ltml-reference-label` 一节。
任务 | 标记 | 依赖 |
分词 | ws | 无 |
词性标注 | pos | ws |
依存句法分析 | dp | pos |
命名实体识别 | ner | pos | |
语义角色标注 | srl | dp, ner |
除了 ltp_test
- :file:`cws_cmdline` :分词命令行
- :file:`pos_cmdline` :词性标注命令行
- :file:`par_cmdline` :句法分析命令行
- :file:`ner_cmdline` :命名实体识别命令行
$ cat input 这 是 测试 文本 。 $ cat input | ./bin/pos_cmdline --postagger-model ./ltp_data/pos.model TRACE: Model is loaded TRACE: Running 1 thread(s) WARN: Cann't open file! use stdin instead. 这_r 是_v 测试_v 文本_n 。_wp TRACE: consume 0.000832081 seconds.
关于各模块的用法,与ltp_test基本类似。细节请参考 xxx_cmdline -h
苯并芘 亚硝酸盐
雷人 v a 】 wp
- :file:`./bin/ltp_test` :分词、词性外部词典
- :file:`./bin/ltp_server` :分词、词性外部词典
- :file:`./bin/examples/cws_cmdline` :分词外部词典
- :file:`./bin/examples/pos_cmdline` :词性外部词典
- :file:`./tools/train/otcws` :分词外部词典
- :file:`./tools/train/otpos` :词性外部词典
LTP的所有模型文件均使用UTF8 [1] 编码训练,故请确保待分析文本的编码为UTF8格式。
系统 | 编译器 | 版本 | ltp_test | 训练套件 | ltp_server | 单元测试 | 模型加载 |
Linux (64bit) | gnu-c++ | 4.4 | 支持 | 支持 | 支持 | 支持 | 通过 |
Linux (64bit) | gnu-c++ | 4.6 | 支持 | 支持 | 支持 | 支持 | 通过 |
Linux (64bit) | gnu-c++ | 4.7 | 支持 | 支持 | 支持 | 支持 | 通过 |
Linux (64bit) | gnu-c++ | 4.8 | 支持 | 支持 | 支持 | 支持 | 通过 |
Linux (64bit) | gnu-c++ | 4.9 | 支持 | 支持 | 支持 | 支持 | 通过 |
Linux (64bit) | gnu-c++ | 5.3 | 支持 | 支持 | 支持 | 不支持 | 通过 |
Linux (64bit) | clang | 3.4 | 支持 | 支持 | 支持 | 不支持 | 通过 |
Linux (64bit) | clang | 3.5 | 支持 | 支持 | 支持 | 不支持 | 通过 |
Linux (64bit) | clang | 3.6 | 支持 | 支持 | 支持 | 不支持 | 通过 |
Windows (64bit) | MSVC | 18/vs13 | 支持 | 支持 | 不支持 | 不支持 | 通过 |
Windows (64bit) | MSVC | 19/vs15 | 支持 | 支持 | 不支持 | 不支持 | 通过 |
Cygwin (64bit) | gnu-c++ | 4.8 | 支持 | 支持 | 支持 | 支持 | 通过 |
mingw (64bit) | gnu-c++ | 4.7 | 支持 | 支持 | 不支持 | 不支持 | 通过 |
mingw (64bit) | gnu-c++ | 5.1 | 支持 | 支持 | 不支持 | 不支持 | 通过 |
[1] | 由于Windows终端采用gbk编码显示,运行 :file:`ltp_test` 后会在终端输出乱码。您可以将标准输出重定向到文件,以UTF8方式查看文件,就可以解决乱码的问题。 |