documentation

HATAKE0 · Mar 26, 2016 · 8c6ff88 · 8c6ff88
1 parent 31c11a4
commit 8c6ff88
Show file tree

Hide file tree

Showing 4 changed files with 107 additions and 65 deletions.
diff --git a/NEWS.md b/NEWS.md
@@ -1,3 +1,20 @@
+2016-03-26
+----------
+语言技术平台3.3.1版 发布
+* [修复] 修复了3.3.0版本模型加载的bug
+* [增加] 提供 Windows 下的`ltp_test`和`xxx_cmdline`二进制下载，无需再手工编译
+
+2015-05-24
+----------
+语言技术平台3.3.0版 发布
+* [增加] 词性标注模型加入微博数据，使得在开放域上的词性标注性能更好(+3.3 precision)
+* [增加] 依存句法分析模型加入微博数据，使得在开放域上的句法分析性能更好(+3 UAS)
+* [增加] 依存句法分析算法切换到transition-based neural network parser，速度从40 tokens/s提升到8000 tokens/s。同时通过加入聚类特征以及优化训练算法，（在新闻领域）准确率也得到小幅提升(+0.2 UAS)
+* [增加] `ltp_test`默认支持多线程，线程数可配置。
+* [增加] 新加入子模块命令行程序，`cws_cmdline`，`pos_cmdline`，`par_cmdline`，`ner_cmdline`，使用户可以很容易替换中间模块，从而实现语言分析的组合。
+* [修改] 优化了训练套件的交互方式
+* [增加] 添加模型验证，单元测试模块。
+
 2014-11-16
 ----------
 语言技术平台3.2.0版 发布

diff --git a/doc/ltptest.rst b/doc/ltptest.rst
@@ -185,16 +185,34 @@ LTP的所有模型文件均使用UTF8 [#f1]_ 编码训练，故请确保待分
 +-----------------+---------+---------+----------+----------+------------+----------+----------+
 | 系统            | 编译器  | 版本    | ltp_test | 训练套件 | ltp_server | 单元测试 | 模型加载 |
 +=================+=========+=========+==========+==========+============+==========+==========+
-| Linux (64bit)   | gnu-c++ | 4.4-4.8 | 支持     | 支持     | 支持       | 支持     | 通过     |
+| Linux (64bit)   | gnu-c++ | 4.4     | 支持     | 支持     | 支持       | 支持     | 通过     |
 +-----------------+---------+---------+----------+----------+------------+----------+----------+
-| Linux (64bit)   | clang   | 3.4     | 支持     | 支持     | 支持       | 支持     | 通过     |
+| Linux (64bit)   | gnu-c++ | 4.6     | 支持     | 支持     | 支持       | 支持     | 通过     |
 +-----------------+---------+---------+----------+----------+------------+----------+----------+
-| Windows (64bit) | MSVC    | 12      | 支持     | 支持     | 不支持     | 不支持   | 通过     |
+| Linux (64bit)   | gnu-c++ | 4.7     | 支持     | 支持     | 支持       | 支持     | 通过     |
++-----------------+---------+---------+----------+----------+------------+----------+----------+
+| Linux (64bit)   | gnu-c++ | 4.8     | 支持     | 支持     | 支持       | 支持     | 通过     |
++-----------------+---------+---------+----------+----------+------------+----------+----------+
+| Linux (64bit)   | gnu-c++ | 4.9     | 支持     | 支持     | 支持       | 支持     | 通过     |
++-----------------+---------+---------+----------+----------+------------+----------+----------+
+| Linux (64bit)   | gnu-c++ | 5.3     | 支持     | 支持     | 支持       | 不支持   | 通过     |
++-----------------+---------+---------+----------+----------+------------+----------+----------+
+| Linux (64bit)   | clang   | 3.4     | 支持     | 支持     | 支持       | 不支持   | 通过     |
++-----------------+---------+---------+----------+----------+------------+----------+----------+
+| Linux (64bit)   | clang   | 3.5     | 支持     | 支持     | 支持       | 不支持   | 通过     |
++-----------------+---------+---------+----------+----------+------------+----------+----------+
+| Linux (64bit)   | clang   | 3.6     | 支持     | 支持     | 支持       | 不支持   | 通过     |
++-----------------+---------+---------+----------+----------+------------+----------+----------+
+| Windows (64bit) | MSVC    | 18/vs13 | 支持     | 支持     | 不支持     | 不支持   | 通过     |
++-----------------+---------+---------+----------+----------+------------+----------+----------+
+| Windows (64bit) | MSVC    | 19/vs15 | 支持     | 支持     | 不支持     | 不支持   | 通过     |
 +-----------------+---------+---------+----------+----------+------------+----------+----------+
 | Cygwin (64bit)  | gnu-c++ | 4.8     | 支持     | 支持     | 支持       | 支持     | 通过     |
 +-----------------+---------+---------+----------+----------+------------+----------+----------+
 | mingw (64bit)   | gnu-c++ | 4.7     | 支持     | 支持     | 不支持     | 不支持   | 通过     |
 +-----------------+---------+---------+----------+----------+------------+----------+----------+
+| mingw (64bit)   | gnu-c++ | 5.1     | 支持     | 支持     | 不支持     | 不支持   | 通过     |
++-----------------+---------+---------+----------+----------+------------+----------+----------+
 
 .. rubric:: 注
 

diff --git a/doc/news.rst b/doc/news.rst
@@ -1,6 +1,11 @@
 新闻
 =====
 
+语言技术平台3.3.1版 发布
+
+* [修复] 修复了3.3.0版本模型加载的bug
+* [增加] 提供 Windows 下的`ltp_test`和`xxx_cmdline`二进制下载，无需再手工编译
+
 语言技术平台3.3.0版 发布
 
 * [增加] 词性标注模型加入微博数据，使得在开放域上的词性标注性能更好(+3.3 precision)

diff --git a/doc/theory.rst b/doc/theory.rst
@@ -20,6 +20,70 @@
 
 具体来讲，LTP特征映射是以特征前缀为单位进行组织的。对应的，我们裁剪了同一前缀下更新次数较少的所有特征。
 
+
+测试设置
+---------
+
+下述实验的测试硬件环境如下：
+
+* CPU: Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz
+* RAM: 128G
+
+分词模块
+---------
+
+在LTP中，我们将分词任务建模为基于字的序列标注问题。对于输入句子的字序列，模型给句子中的每个字标注一个标识词边界的标记。在LTP中，我们采用的标记集如附录所示。
+
+对于模型参数，我们采用在线机器学习算法框架从标注数据中学习参数。对于分词模型，我们使用的基本模型特征有：
+
++--------------+-------------------------------------------------+
+| 类别         | 特征                                            |
++==============+=================================================+
+| char-unigram | ch[-2], ch[-1], ch[0], ch[1], ch[2]             |
++--------------+-------------------------------------------------+
+| char-bigram  | ch[-2]ch[-1], ch[-1]ch[0],ch[0]ch[1],ch[1]ch[2] |
++--------------+-------------------------------------------------+
+| dulchar      | ch[-1]=ch[0]?                                   |
++--------------+-------------------------------------------------+
+| dul2char     | ch[-2]=ch[0]?                                   |
++--------------+-------------------------------------------------+
+
+同时，为了提高互联网文本特别是微博文本的处理性能。我们在分词系统中加入如下一些优化策略：
+
+* 英文、URI一类特殊词识别规则
+* 利用空格等自然标注线索
+* 在统计模型中融入词典信息
+* 从大规模未标注数据中统计的字间互信息、上下文丰富程度
+
+在统计模型中融合词典的方法是将最大正向匹配得到的词特征
+
++------------------------+---------------------------------------+
+| 类别                   | 特征                                  |
++========================+=======================================+
+| begin-of-lexicon-word  | ch[0] is preffix of words in lexicon? |
++------------------------+---------------------------------------+
+| middle-of-lexicon-word | ch[0] is middle of words in lexicon?  |
++------------------------+---------------------------------------+
+| end-of-lexicon-word    | ch[0] is suffix of words in lexicon?  |
++------------------------+---------------------------------------+
+
+基础模型在人民日报测试数据上的性能如下：
+
+语料信息：人民日报1998年2月-6月(后10%数据作为开发集)作为训练数据，1月作为测试数据。
+
+* 准确率为：
+
+    +--------+----------+----------+----------+
+    |        | P        | R        | F        |
+    +========+==========+==========+==========+
+    | 开发集 | 0.973152 | 0.972430 | 0.972791 |
+    +--------+----------+----------+----------+
+    | 测试集 | 0.972316 | 0.970354 | 0.972433 |
+    +--------+----------+----------+----------+
+
+* 运行时内存：124M
+* 速度：392.5K/sec
+
 .. _customized-cws-reference-label:
 
 个性化分词
@@ -85,68 +149,6 @@
 
 与customized-learn类似，需指定 :code:`--baseline-model` 参数为前面获得的基础模型。其余选项与 :code:`./tools/train/otcws test` 一致。
 
-测试设置
----------
-
-下述实验的测试硬件环境如下：
-
-* CPU: Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz
-* RAM: 128G
-
-分词模块
----------
-
-在LTP中，我们将分词任务建模为基于字的序列标注问题。对于输入句子的字序列，模型给句子中的每个字标注一个标识词边界的标记。在LTP中，我们采用的标记集如附录所示。
-
-对于模型参数，我们采用在线机器学习算法框架从标注数据中学习参数。对于分词模型，我们使用的基本模型特征有：
-
-+--------------+-------------------------------------------------+
-| 类别         | 特征                                            |
-+==============+=================================================+
-| char-unigram | ch[-2], ch[-1], ch[0], ch[1], ch[2]             |
-+--------------+-------------------------------------------------+
-| char-bigram  | ch[-2]ch[-1], ch[-1]ch[0],ch[0]ch[1],ch[1]ch[2] |
-+--------------+-------------------------------------------------+
-| dulchar      | ch[-1]=ch[0]?                                   |
-+--------------+-------------------------------------------------+
-| dul2char     | ch[-2]=ch[0]?                                   |
-+--------------+-------------------------------------------------+
-
-同时，为了提高互联网文本特别是微博文本的处理性能。我们在分词系统中加入如下一些优化策略：
-
-* 英文、URI一类特殊词识别规则
-* 利用空格等自然标注线索
-* 在统计模型中融入词典信息
-* 从大规模未标注数据中统计的字间互信息、上下文丰富程度
-
-在统计模型中融合词典的方法是将最大正向匹配得到的词特征
-
-+------------------------+---------------------------------------+
-| 类别                   | 特征                                  |
-+========================+=======================================+
-| begin-of-lexicon-word  | ch[0] is preffix of words in lexicon? |
-+------------------------+---------------------------------------+
-| middle-of-lexicon-word | ch[0] is middle of words in lexicon?  |
-+------------------------+---------------------------------------+
-| end-of-lexicon-word    | ch[0] is suffix of words in lexicon?  |
-+------------------------+---------------------------------------+
-
-基础模型在人民日报测试数据上的性能如下：
-
-语料信息：人民日报1998年2月-6月(后10%数据作为开发集)作为训练数据，1月作为测试数据。
-
-* 准确率为：
-
-    +--------+----------+----------+----------+
-    |        | P        | R        | F        |
-    +========+==========+==========+==========+
-    | 开发集 | 0.973152 | 0.972430 | 0.972791 |
-    +--------+----------+----------+----------+
-    | 测试集 | 0.972316 | 0.970354 | 0.972433 |
-    +--------+----------+----------+----------+
-
-* 运行时内存：124M
-* 速度：392.5K/sec
 
 词性标注模块
 ------------