Skip to content

Commit

Permalink
revise document3.0
Browse files Browse the repository at this point in the history
  • Loading branch information
Oneplus committed Jul 25, 2013
1 parent 009d9b3 commit 6815dc9
Showing 1 changed file with 142 additions and 1 deletion.
143 changes: 142 additions & 1 deletion doc/ltp-document-3.0.md
Original file line number Diff line number Diff line change
Expand Up @@ -574,7 +574,7 @@ otcws是ltp分词模型的训练套件,用户可以使用otcws训练获得ltp
otcws分别支持从人工切分数据中训练分词模型和调用分词模型对句子进行切分。人工切分的句子的样例如下:

对外 , 他们 代表 国家 。

otcws主要通过配置文件指定执行的工作,其中主要有两类配置文件:训练配置和测试配置。

训练配置的配置文件样例如下所示。
Expand Down Expand Up @@ -620,3 +620,144 @@ otpos是ltp分词模型的训练套件,用户可以使用otpos训练获得ltp
./otpos [config_file]

otpos分别支持从人工切分并标注词性的数据中训练词性标注模型和调用词性标注模型对切分好的句子进行词性标注。人工标注的词性标注句子样例如下:

对外_v ,_wp 他们_r 代表_v 国家_n 。_wp

otpos主要通过配置文件指定执行的工作,其中主要有两类配置文件:训练配置和测试配置。

训练配置的配置文件样例如下所示。

[train]
train-file = data/ctb5-train.pos
holdout-file = data/ctb5-holdout.pos
algorithm = pa
model-name = model/ctb5-pos
max-iter = 5

其中,

* [train] 配置组指定执行训练
* Ttain-file 配置项指定训练集文件
* Holdout-file 配置项指定开发集文件
* Algorithm 指定参数学习方法,现在otcws支持两种参数学习方法,分别是passive aggressive(pa)和average perceptron(ap)。
* Model-name 指定输出模型文件名
* Max-iter 指定最大迭代次数

测试配置的配置文件样例如下所示。

其中,

* [test] 配置组指定执行测试
* Test-file 指定测试文件
* Model-file 指定模型文件位置

词性标注结果将输入到标准io中。

*[train][test]两个配置组不能同时存在)

## 依存句法分析训练套件lgdpj用法

lgdpj是ltp依存句法分析模型的训练套件,用户可以使用lgdpj训练获得ltp的依存句法分析模型。

编译之后,在tools/train下面会产生名为lgdpj的二进制程序。调用方法是

./lgdpj [config_file]。

lgdpj分别支持从人工标注依存句法的数据中训练依存句法分析模型和调用依存句法分析模型对句子进行依存句法分析。人工标注的词性标注依存句法的句子遵从conll格式,其样例如下:

1 对外 _ v _ _ 4 ADV _ _
2 , _ wp _ _ 1 WP _ _
3 他们 _ r _ _ 4 SBV _ _
4 代表 _ v _ _ 0 HED _ _
5 国家 _ n _ _ 4 VOB _ _
6 。 _ wp _ _ 4 WP _ _

lgdpj主要通过配置文件指定执行的工作,其中主要有两类配置文件:训练配置和测试配置。

训练配置的配置文件样例如下所示。

[model]
labeled = 1
decoder-name = 2o-carreras

[feature]
use-postag-unigram = 0
use-dependency = 1
use-dependency-unigram = 1
use-dependency-bigram = 1
use-dependency-surrounding = 1
use-dependency-between = 1
use-sibling = 1
use-sibling-basic = 1
use-sibling-linear = 1
use-grand = 1
use-grand-basic = 1
use-grand-linear = 1

[train]
train-file = data/conll/ldc-train.conll
holdout-file = data/conll/ldc-holdout.conll
max-iter = 5
algorithm = pa
model-name = model/parser/ldc-o2carreras

其中,

* [mode] 配置组中
* labeled 表示是否使用有label的依存句法分析
* decoder-name 表示采用的解码算法,现在lgdpj支持三种解码算法,分别是1o,2o-sib,2o-carreras
* [feature] 配置组指定使用的特征
* [train] 配置组指定执行训练
* Train-file 配置项指定训练集文件
* Holdout-file 配置项指定开发集文件
* Algorithm 指定参数学习方法,现在otcws支持两种参数学习方法,分别是passive aggressive(pa)和average perceptron(ap)。
* Model-name 指定输出模型文件名
* Max-iter 指定最大迭代次数

测试配置的配置文件样例如下所示。

[test]
test-file = data/conll/ldc-test.conll
model-file = model/parser/ldc-o2carreras.2.model

其中,

* [test] 配置组指定执行测试
* Test-file 指定测试文件
* Model-file 指定模型文件位置

依存句法分析结果将输入到标准io中。

# 发表论文

# 附录

## 分词标注集

| 标记 | 含义 | 举例 |
| --- | --- | --- |
| B | 词首 | ____|
| I | 词中 |____|
| E | 词尾 |____ |
| S | 单字成词 ||

## 词性标注集

LTP 使用的是863 词性标注集,其各个词性含义如下表。

| Tag | Description | Example | Tag | Description | Example |
| --- | ------------------- | ---------- | --- | ----------------- | ---------- |
| a | adjective | 美丽 | ni | organization name | 保险公司 |
| b | other noun-modifier | 大型, 西式 | nl | location noun | 城郊 |
| c | conjunction | 和, 虽然 | ns | geographical name | 北京 |
| d | adverb || nt | temporal noun | 近日, 明代 |
| e | exclamation || nz | other proper noun | 诺贝尔奖 |
| g | morpheme | 茨, 甥 | o | onomatopoeia | 哗啦 |
| h | prefix | 阿, 伪 | p | preposition | 在, 把 |
| i | idiom | 百花齐放 | q | quantity ||
| j | abbreviation | 公检法 | r | pronoun | 我们 |
| k | suffix | 界, 率 | u | auxiliary | 的, 地 |
| m | number | 一, 第一 | v | verb | 跑, 学习 |
| n | general noun | 苹果 | wp | punctuation | ,。! |
| nd | direction noun | 右侧 | ws | foreign words | CPU |
| nh | person name | 杜甫, 汤姆 | x | non-lexeme | 萄, 翱 |

0 comments on commit 6815dc9

Please sign in to comment.