revise document3.0

0xuye0 · Jul 25, 2013 · 6815dc9 · 6815dc9
1 parent 009d9b3
commit 6815dc9
Showing 1 changed file with 142 additions and 1 deletion.
diff --git a/doc/ltp-document-3.0.md b/doc/ltp-document-3.0.md
@@ -574,7 +574,7 @@ otcws是ltp分词模型的训练套件，用户可以使用otcws训练获得ltp
 otcws分别支持从人工切分数据中训练分词模型和调用分词模型对句子进行切分。人工切分的句子的样例如下：
 
 	对外		，	他们		代表		国家		。
-	
+
 otcws主要通过配置文件指定执行的工作，其中主要有两类配置文件：训练配置和测试配置。
 
 训练配置的配置文件样例如下所示。
@@ -620,3 +620,144 @@ otpos是ltp分词模型的训练套件，用户可以使用otpos训练获得ltp
 	./otpos [config_file]
 
 otpos分别支持从人工切分并标注词性的数据中训练词性标注模型和调用词性标注模型对切分好的句子进行词性标注。人工标注的词性标注句子样例如下：
+
+	对外_v	，_wp	他们_r	代表_v	国家_n	。_wp
+
+otpos主要通过配置文件指定执行的工作，其中主要有两类配置文件：训练配置和测试配置。
+
+训练配置的配置文件样例如下所示。
+
+	[train]
+	train-file = data/ctb5-train.pos
+	holdout-file = data/ctb5-holdout.pos
+	algorithm = pa
+	model-name = model/ctb5-pos
+	max-iter = 5
+
+其中，
+
+* [train] 配置组指定执行训练
+	* Ttain-file 配置项指定训练集文件
+	* Holdout-file 配置项指定开发集文件
+	* Algorithm 指定参数学习方法，现在otcws支持两种参数学习方法，分别是passive aggressive（pa）和average perceptron（ap）。
+	* Model-name 指定输出模型文件名
+	* Max-iter 指定最大迭代次数
+
+测试配置的配置文件样例如下所示。
+
+其中，
+
+* [test] 配置组指定执行测试
+	* Test-file 指定测试文件
+	* Model-file 指定模型文件位置
+
+词性标注结果将输入到标准io中。
+
+（*[train]与[test]两个配置组不能同时存在）
+
+## 依存句法分析训练套件lgdpj用法
+
+lgdpj是ltp依存句法分析模型的训练套件，用户可以使用lgdpj训练获得ltp的依存句法分析模型。
+
+编译之后，在tools/train下面会产生名为lgdpj的二进制程序。调用方法是
+
+	./lgdpj [config_file]。
+
+lgdpj分别支持从人工标注依存句法的数据中训练依存句法分析模型和调用依存句法分析模型对句子进行依存句法分析。人工标注的词性标注依存句法的句子遵从conll格式，其样例如下：
+
+	1       对外    _       v       _       _       4       ADV     _       _
+	2       ，      _       wp      _       _       1       WP      _       _
+	3       他们    _       r       _       _       4       SBV     _       _
+	4       代表    _       v       _       _       0       HED     _       _
+	5       国家    _       n       _       _       4       VOB     _       _
+	6       。      _       wp      _       _       4       WP      _       _
+
+lgdpj主要通过配置文件指定执行的工作，其中主要有两类配置文件：训练配置和测试配置。
+
+训练配置的配置文件样例如下所示。
+
+	[model]
+	labeled = 1
+	decoder-name = 2o-carreras
+
+	[feature]
+	use-postag-unigram = 0
+	use-dependency = 1
+	use-dependency-unigram = 1
+	use-dependency-bigram = 1
+	use-dependency-surrounding = 1
+	use-dependency-between = 1
+	use-sibling = 1
+	use-sibling-basic = 1
+	use-sibling-linear = 1
+	use-grand = 1
+	use-grand-basic = 1
+	use-grand-linear = 1
+
+	[train]
+	train-file = data/conll/ldc-train.conll
+	holdout-file = data/conll/ldc-holdout.conll
+	max-iter = 5 
+	algorithm = pa
+	model-name = model/parser/ldc-o2carreras
+
+其中，
+
+* [mode] 配置组中
+	* labeled 表示是否使用有label的依存句法分析
+	* decoder-name 表示采用的解码算法，现在lgdpj支持三种解码算法，分别是1o，2o-sib，2o-carreras
+* [feature] 配置组指定使用的特征
+* [train] 配置组指定执行训练
+	* Train-file 配置项指定训练集文件
+	* Holdout-file 配置项指定开发集文件
+	* Algorithm 指定参数学习方法，现在otcws支持两种参数学习方法，分别是passive aggressive（pa）和average perceptron（ap）。
+	* Model-name 指定输出模型文件名
+	* Max-iter 指定最大迭代次数
+
+测试配置的配置文件样例如下所示。
+
+	[test]
+	test-file = data/conll/ldc-test.conll
+	model-file = model/parser/ldc-o2carreras.2.model
+
+其中，
+
+* [test] 配置组指定执行测试
+	* Test-file 指定测试文件
+	* Model-file 指定模型文件位置
+
+依存句法分析结果将输入到标准io中。
+
+# 发表论文
+
+# 附录
+
+## 分词标注集
+
+| 标记 | 含义 | 举例 |
+| --- | --- | --- |
+| B | 词首 | __中__国 |
+| I | 词中 | 哈__工__大 |
+| E | 词尾 | 科__学__ |
+| S | 单字成词 | 的 |
+
+## 词性标注集
+
+LTP 使用的是863 词性标注集，其各个词性含义如下表。
+
+| Tag | Description         | Example    | Tag | Description       | Example    |
+| --- | ------------------- | ---------- | --- | ----------------- | ---------- |
+| a   | adjective           | 美丽       | ni  | organization name | 保险公司   |
+| b   | other noun-modifier | 大型, 西式 | nl  | location noun     | 城郊       |
+| c   | conjunction         | 和, 虽然   | ns  | geographical name | 北京       |
+| d   | adverb              | 很         | nt  | temporal noun     | 近日, 明代 |
+| e   | exclamation         | 哎         | nz  | other proper noun | 诺贝尔奖   |
+| g   | morpheme            | 茨, 甥     | o   | onomatopoeia      | 哗啦       |
+| h   | prefix              | 阿, 伪     | p   | preposition       | 在, 把     |
+| i   | idiom               | 百花齐放   | q   | quantity          | 个         |
+| j   | abbreviation        | 公检法     | r   | pronoun           | 我们       |
+| k   | suffix              | 界, 率     | u   | auxiliary         | 的, 地     |
+| m   | number              | 一, 第一   | v   | verb              | 跑, 学习   |
+| n   | general noun        | 苹果       | wp  | punctuation       | ，。！     |
+| nd  | direction noun      | 右侧       | ws  | foreign words     | CPU        |
+| nh  | person name         | 杜甫, 汤姆 | x   | non-lexeme        | 萄, 翱     |