Skip to content

Commit

Permalink
Merge branch 'ltp-trainer' of github.com:HIT-SCIR/ltp into ltp-trainer
Browse files Browse the repository at this point in the history
  • Loading branch information
Oneplus committed Apr 4, 2013
2 parents cc88da4 + 9007d0a commit e2f7d52
Showing 1 changed file with 61 additions and 2 deletions.
63 changes: 61 additions & 2 deletions tools/train/README.md
Original file line number Diff line number Diff line change
Expand Up @@ -5,20 +5,36 @@
这个脚本是LTP使用的训练模块的一种封装。封装的模块包括

* 分词(Word Segmentation)
* 词性标注(POS Tagging)
* 依存句法分析(Dependency Parsing)
* 语义角色标注(Semantic Role Labeling)

这个封装在linux下使用python 2.7开发,并未在其他python版本下进行测试(欢迎使用者为我们提供其他版本的测试结果)。

使用
----

编译过程会自动在`tools/train`路径下产生`crf_learn``maxent``SRLExtract``SRLGetInstance`几个可执行程序。
### 编译结果

编译过程会自动在`tools/train`路径下产生

* `crf_learn`
* `maxent`
* `SRLExtract`
* `SRLGetInstance`
* `gparser`
* `svm_light`

6个可执行程序。

### 简要用法

这个封装提供如下一些支持:

* 构建模型:训练指定的模型并将模型暂存在build路径下

```
./ltp-model build [ws|srl] [OPTIONS]
./ltp-model build [ws|pos|srl|dp] [OPTIONS]
```

* 部署模型:将训练的模型以及配置文件拷贝到`ltp_data`路径下
Expand All @@ -33,6 +49,10 @@
./ltp-model clean
```

### 配置文件

程序在运行过程中会自动产生一个名为`ltp-model.json`的临时文件,用以存储配置,请不要对其进行修改。

构建分词模型
------------

Expand All @@ -54,6 +74,45 @@

分词模型使用[CRFPP](http://crfpp.googlecode.com/svn/trunk/doc/index.html)构建,这个封装同时也支持`crf_learn`中对应的参数。具体可以使用`crf_learn`命令检查


构建词性标注模型
----------------

首先准备分好词并进行词性标注的文本,词间使用空格断开,词与词性之间用`_`分割。每句一行。例如:

```
新华社_NR 北京_NR 九月_NT 一日_NT 电_NN (_PU 记者_NN 吴锦才_NR )_PU
第三_OD 步_M 是_VC 7月份_NT 赴_VV 美国_NR 参加_VV 世界_NN 四_CD 强_NN 赛_NN 。_PU
...
```

然后运行脚本,训练词性标注模型。

```
./ltp-model build pos --train=<your-train-file>
```

构建依存句法分析模型
--------------------

首先准备ConllX格式的依存句法分语料,例如:

```
1 上海 _ NR _ _ 2 NMOD _ _
2 浦东 _ NR _ _ 6 NMOD _ _
3 开发 _ NN _ _ 6 NMOD _ _
4 与 _ CC _ _ 6 NMOD _ _
5 法制 _ NN _ _ 6 NMOD _ _
6 建设 _ NN _ _ 7 SUB _ _
7 同步 _ VV _ _ 0 ROOT _ _
```

然后运行脚本,训练依存句法模型。

```
./ltp-model build dp --train=<your-train-file>
```

构建语义角色标注模型
--------------------

Expand Down

0 comments on commit e2f7d52

Please sign in to comment.