Skip to content

Commit

Permalink
documentation
Browse files Browse the repository at this point in the history
  • Loading branch information
Oneplus committed Mar 26, 2016
1 parent 31c11a4 commit 8c6ff88
Show file tree
Hide file tree
Showing 4 changed files with 107 additions and 65 deletions.
17 changes: 17 additions & 0 deletions NEWS.md
Original file line number Diff line number Diff line change
@@ -1,3 +1,20 @@
2016-03-26
----------
语言技术平台3.3.1版 发布
* [修复] 修复了3.3.0版本模型加载的bug
* [增加] 提供 Windows 下的`ltp_test``xxx_cmdline`二进制下载,无需再手工编译

2015-05-24
----------
语言技术平台3.3.0版 发布
* [增加] 词性标注模型加入微博数据,使得在开放域上的词性标注性能更好(+3.3 precision)
* [增加] 依存句法分析模型加入微博数据,使得在开放域上的句法分析性能更好(+3 UAS)
* [增加] 依存句法分析算法切换到transition-based neural network parser,速度从40 tokens/s提升到8000 tokens/s。同时通过加入聚类特征以及优化训练算法,(在新闻领域)准确率也得到小幅提升(+0.2 UAS)
* [增加] `ltp_test`默认支持多线程,线程数可配置。
* [增加] 新加入子模块命令行程序,`cws_cmdline``pos_cmdline``par_cmdline``ner_cmdline`,使用户可以很容易替换中间模块,从而实现语言分析的组合。
* [修改] 优化了训练套件的交互方式
* [增加] 添加模型验证,单元测试模块。

2014-11-16
----------
语言技术平台3.2.0版 发布
Expand Down
24 changes: 21 additions & 3 deletions doc/ltptest.rst
Original file line number Diff line number Diff line change
Expand Up @@ -185,16 +185,34 @@ LTP的所有模型文件均使用UTF8 [#f1]_ 编码训练,故请确保待分
+-----------------+---------+---------+----------+----------+------------+----------+----------+
| 系统 | 编译器 | 版本 | ltp_test | 训练套件 | ltp_server | 单元测试 | 模型加载 |
+=================+=========+=========+==========+==========+============+==========+==========+
| Linux (64bit) | gnu-c++ | 4.4-4.8 | 支持 | 支持 | 支持 | 支持 | 通过 |
| Linux (64bit) | gnu-c++ | 4.4 | 支持 | 支持 | 支持 | 支持 | 通过 |
+-----------------+---------+---------+----------+----------+------------+----------+----------+
| Linux (64bit) | clang | 3.4 | 支持 | 支持 | 支持 | 支持 | 通过 |
| Linux (64bit) | gnu-c++ | 4.6 | 支持 | 支持 | 支持 | 支持 | 通过 |
+-----------------+---------+---------+----------+----------+------------+----------+----------+
| Windows (64bit) | MSVC | 12 | 支持 | 支持 | 不支持 | 不支持 | 通过 |
| Linux (64bit) | gnu-c++ | 4.7 | 支持 | 支持 | 支持 | 支持 | 通过 |
+-----------------+---------+---------+----------+----------+------------+----------+----------+
| Linux (64bit) | gnu-c++ | 4.8 | 支持 | 支持 | 支持 | 支持 | 通过 |
+-----------------+---------+---------+----------+----------+------------+----------+----------+
| Linux (64bit) | gnu-c++ | 4.9 | 支持 | 支持 | 支持 | 支持 | 通过 |
+-----------------+---------+---------+----------+----------+------------+----------+----------+
| Linux (64bit) | gnu-c++ | 5.3 | 支持 | 支持 | 支持 | 不支持 | 通过 |
+-----------------+---------+---------+----------+----------+------------+----------+----------+
| Linux (64bit) | clang | 3.4 | 支持 | 支持 | 支持 | 不支持 | 通过 |
+-----------------+---------+---------+----------+----------+------------+----------+----------+
| Linux (64bit) | clang | 3.5 | 支持 | 支持 | 支持 | 不支持 | 通过 |
+-----------------+---------+---------+----------+----------+------------+----------+----------+
| Linux (64bit) | clang | 3.6 | 支持 | 支持 | 支持 | 不支持 | 通过 |
+-----------------+---------+---------+----------+----------+------------+----------+----------+
| Windows (64bit) | MSVC | 18/vs13 | 支持 | 支持 | 不支持 | 不支持 | 通过 |
+-----------------+---------+---------+----------+----------+------------+----------+----------+
| Windows (64bit) | MSVC | 19/vs15 | 支持 | 支持 | 不支持 | 不支持 | 通过 |
+-----------------+---------+---------+----------+----------+------------+----------+----------+
| Cygwin (64bit) | gnu-c++ | 4.8 | 支持 | 支持 | 支持 | 支持 | 通过 |
+-----------------+---------+---------+----------+----------+------------+----------+----------+
| mingw (64bit) | gnu-c++ | 4.7 | 支持 | 支持 | 不支持 | 不支持 | 通过 |
+-----------------+---------+---------+----------+----------+------------+----------+----------+
| mingw (64bit) | gnu-c++ | 5.1 | 支持 | 支持 | 不支持 | 不支持 | 通过 |
+-----------------+---------+---------+----------+----------+------------+----------+----------+

.. rubric::

Expand Down
5 changes: 5 additions & 0 deletions doc/news.rst
Original file line number Diff line number Diff line change
@@ -1,6 +1,11 @@
新闻
=====

语言技术平台3.3.1版 发布

* [修复] 修复了3.3.0版本模型加载的bug
* [增加] 提供 Windows 下的`ltp_test`和`xxx_cmdline`二进制下载,无需再手工编译

语言技术平台3.3.0版 发布

* [增加] 词性标注模型加入微博数据,使得在开放域上的词性标注性能更好(+3.3 precision)
Expand Down
126 changes: 64 additions & 62 deletions doc/theory.rst
Original file line number Diff line number Diff line change
Expand Up @@ -20,6 +20,70 @@

具体来讲,LTP特征映射是以特征前缀为单位进行组织的。对应的,我们裁剪了同一前缀下更新次数较少的所有特征。


测试设置
---------

下述实验的测试硬件环境如下:

* CPU: Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz
* RAM: 128G

分词模块
---------

在LTP中,我们将分词任务建模为基于字的序列标注问题。对于输入句子的字序列,模型给句子中的每个字标注一个标识词边界的标记。在LTP中,我们采用的标记集如附录所示。

对于模型参数,我们采用在线机器学习算法框架从标注数据中学习参数。对于分词模型,我们使用的基本模型特征有:

+--------------+-------------------------------------------------+
| 类别 | 特征 |
+==============+=================================================+
| char-unigram | ch[-2], ch[-1], ch[0], ch[1], ch[2] |
+--------------+-------------------------------------------------+
| char-bigram | ch[-2]ch[-1], ch[-1]ch[0],ch[0]ch[1],ch[1]ch[2] |
+--------------+-------------------------------------------------+
| dulchar | ch[-1]=ch[0]? |
+--------------+-------------------------------------------------+
| dul2char | ch[-2]=ch[0]? |
+--------------+-------------------------------------------------+

同时,为了提高互联网文本特别是微博文本的处理性能。我们在分词系统中加入如下一些优化策略:

* 英文、URI一类特殊词识别规则
* 利用空格等自然标注线索
* 在统计模型中融入词典信息
* 从大规模未标注数据中统计的字间互信息、上下文丰富程度

在统计模型中融合词典的方法是将最大正向匹配得到的词特征

+------------------------+---------------------------------------+
| 类别 | 特征 |
+========================+=======================================+
| begin-of-lexicon-word | ch[0] is preffix of words in lexicon? |
+------------------------+---------------------------------------+
| middle-of-lexicon-word | ch[0] is middle of words in lexicon? |
+------------------------+---------------------------------------+
| end-of-lexicon-word | ch[0] is suffix of words in lexicon? |
+------------------------+---------------------------------------+

基础模型在人民日报测试数据上的性能如下:

语料信息:人民日报1998年2月-6月(后10%数据作为开发集)作为训练数据,1月作为测试数据。

* 准确率为:

+--------+----------+----------+----------+
| | P | R | F |
+========+==========+==========+==========+
| 开发集 | 0.973152 | 0.972430 | 0.972791 |
+--------+----------+----------+----------+
| 测试集 | 0.972316 | 0.970354 | 0.972433 |
+--------+----------+----------+----------+

* 运行时内存:124M
* 速度:392.5K/sec

.. _customized-cws-reference-label:

个性化分词
Expand Down Expand Up @@ -85,68 +149,6 @@

与customized-learn类似,需指定 :code:`--baseline-model` 参数为前面获得的基础模型。其余选项与 :code:`./tools/train/otcws test` 一致。

测试设置
---------

下述实验的测试硬件环境如下:

* CPU: Intel(R) Xeon(R) CPU E5-2620 0 @ 2.00GHz
* RAM: 128G

分词模块
---------

在LTP中,我们将分词任务建模为基于字的序列标注问题。对于输入句子的字序列,模型给句子中的每个字标注一个标识词边界的标记。在LTP中,我们采用的标记集如附录所示。

对于模型参数,我们采用在线机器学习算法框架从标注数据中学习参数。对于分词模型,我们使用的基本模型特征有:

+--------------+-------------------------------------------------+
| 类别 | 特征 |
+==============+=================================================+
| char-unigram | ch[-2], ch[-1], ch[0], ch[1], ch[2] |
+--------------+-------------------------------------------------+
| char-bigram | ch[-2]ch[-1], ch[-1]ch[0],ch[0]ch[1],ch[1]ch[2] |
+--------------+-------------------------------------------------+
| dulchar | ch[-1]=ch[0]? |
+--------------+-------------------------------------------------+
| dul2char | ch[-2]=ch[0]? |
+--------------+-------------------------------------------------+

同时,为了提高互联网文本特别是微博文本的处理性能。我们在分词系统中加入如下一些优化策略:

* 英文、URI一类特殊词识别规则
* 利用空格等自然标注线索
* 在统计模型中融入词典信息
* 从大规模未标注数据中统计的字间互信息、上下文丰富程度

在统计模型中融合词典的方法是将最大正向匹配得到的词特征

+------------------------+---------------------------------------+
| 类别 | 特征 |
+========================+=======================================+
| begin-of-lexicon-word | ch[0] is preffix of words in lexicon? |
+------------------------+---------------------------------------+
| middle-of-lexicon-word | ch[0] is middle of words in lexicon? |
+------------------------+---------------------------------------+
| end-of-lexicon-word | ch[0] is suffix of words in lexicon? |
+------------------------+---------------------------------------+

基础模型在人民日报测试数据上的性能如下:

语料信息:人民日报1998年2月-6月(后10%数据作为开发集)作为训练数据,1月作为测试数据。

* 准确率为:

+--------+----------+----------+----------+
| | P | R | F |
+========+==========+==========+==========+
| 开发集 | 0.973152 | 0.972430 | 0.972791 |
+--------+----------+----------+----------+
| 测试集 | 0.972316 | 0.970354 | 0.972433 |
+--------+----------+----------+----------+

* 运行时内存:124M
* 速度:392.5K/sec

词性标注模块
------------
Expand Down

0 comments on commit 8c6ff88

Please sign in to comment.