Skip to content

Commit

Permalink
more docs
Browse files Browse the repository at this point in the history
  • Loading branch information
zhangkaixu committed May 4, 2013
1 parent 676eb24 commit 7af1d30
Show file tree
Hide file tree
Showing 4 changed files with 100 additions and 86 deletions.
25 changes: 25 additions & 0 deletions docs/kmeans.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,25 @@
k均值聚类算法
-------------------------------

简单但实用的k-means聚类算法。

为提高代数运算速度,使用了numpy包,在ubuntu下使用 ``sudo apt-get install python3-numpy`` 安装。

调用
++++++++++++++++++++++

./k-means.py --train data.txt --result result.txt


其它主要参数:

* ``--k`` : 聚类个数
* ``--iteration`` : 迭代次数
* ``--nbest`` : 对每个样本输出最近的n个类别

文件格式
+++++++++++++++++++

训练文件:每行一个样本,项用空格隔开。第一项的字符串是样本id。后面m项为样本坐标。

结果文件:每行一个文本,每一项用空格隔开。第一项的字符串是样本id。后面的项依次为与样本最近的n个聚类中心的编号。
34 changes: 34 additions & 0 deletions docs/lda.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,34 @@


LDA主题模型
-----------

调用
+++++++++++++++++++

训练 ::

./lda.py --train training_docs.txt --model model.txt --result training_result.txt

预测 ::

./lda.py --predict test_docs.txt --model model.txt --result test_result.txt

其它主要参数:

* ``-K`` : 设置主题个数
* ``--alpha`` : 设置先验alpha
* ``--beta`` : 设置先验beta
* ``--burnin`` : Gibbs采样burn-in过程迭代次数(收敛用,不统计)
* ``--iteration`` : Gibbs采样burn-in过程之后的采样过程迭代次数
* ``--n_stops`` : 去掉的高频停用词个数
* ``--n_words`` : 进行Gibbs采样的次高频词个数

文件格式
++++++++++++++++++++

训练、预测文件:每行为一个文本,文本中的词用空格隔开。

模型文件:第一行为模型的 ``alpha`` 和 ``beta`` ,余下的行每行三个值 ``topic word freq`` 为主题 ``topic`` 下词 ``word`` 的权重。

结果文件:每行一个文本,每一项用空格隔开。前`K`项为文本主题分布,后面的项为每个词及其对应的主题。
90 changes: 4 additions & 86 deletions docs/mines.rst
Original file line number Diff line number Diff line change
Expand Up @@ -5,100 +5,18 @@


.. toctree::
:maxdepth: 2
:maxdepth: 1

cws.rst
pca.rst
kmeans.rst
lda.rst
perceptron.rst





k均值聚类算法
-------------

简单但实用的k-means聚类算法。

为提高代数运算速度,使用了numpy包,在ubuntu下使用`sudo apt-get install python3-numpy`安装。

### 调用

./k-means.py --train data.txt --result result.txt


其它主要参数:
* `--k` : 聚类个数
* `--iteration` : 迭代次数
* `--nbest` : 对每个样本输出最近的n个类别

### 文件格式

训练文件:每行一个样本,项用空格隔开。第一项的字符串是样本id。后面m项为样本坐标。

结果文件:每行一个文本,每一项用空格隔开。第一项的字符串是样本id。后面的项依次为与样本最近的n个聚类中心的编号。

LDA主题模型
-----------

### 调用

训练:

./lda.py --train training_docs.txt --model model.txt --result training_result.txt

预测:

./lda.py --predict test_docs.txt --model model.txt --result test_result.txt

其它主要参数:
* `-K` : 设置主题个数
* `--alpha` : 设置先验alpha
* `--beta` : 设置先验beta
* `--burnin` : Gibbs采样burn-in过程迭代次数(收敛用,不统计)
* `--iteration` : Gibbs采样burn-in过程之后的采样过程迭代次数
* `--n_stops` : 去掉的高频停用词个数
* `--n_words` : 进行Gibbs采样的次高频词个数

### 文件格式

训练、预测文件:每行为一个文本,文本中的词用空格隔开。

模型文件:第一行为模型的`alpha`和`beta`,余下的行每行三个值`topic word freq`为主题`topic`下词`word`的权重。

结果文件:每行一个文本,每一项用空格隔开。前`K`项为文本主题分布,后面的项为每个词及其对应的主题。



感知器模型
----------

### 调用

训练:

./perceptron.py --train training_file.txt --model model.txt

测试:

./perceptron.py --model model.txt --test test_file.txt
./perceptron.py --train training_file.txt --model model.txt --test test_file.txt #同时进行训练与测试

交叉验证:

./perceptron.py --CV 5 --train training_file.txt

预测:

./perceptron.py --model model.txt --predict predict.txt --result result.txt
./perceptron.py --model model.txt < predict.txt > result.txt

其它主要参数:
* `--iteration` : 迭代次数

### 文件格式

训练、预测文件:与LIBSVM兼容。每行一个样本,每个样本若干项信息用空格隔开,第一项为样本类别,后面为特征形如`feature:weight`,其中`feature`可以为任意合法字符串。

模型文件:使用JSON格式存储的两个对象。第一个为所有类别的表格,第二个为一个哈希表,`key`为特征,形如`label~feature`,`value`为权重。

结果文件:每行一个样本,仅输出分类结果即类别。
37 changes: 37 additions & 0 deletions docs/perceptron.rst
Original file line number Diff line number Diff line change
@@ -0,0 +1,37 @@

感知器模型
----------

调用
+++++++++++++++++

训练::

./perceptron.py --train training_file.txt --model model.txt

测试::

./perceptron.py --model model.txt --test test_file.txt
./perceptron.py --train training_file.txt --model model.txt --test test_file.txt #同时进行训练与测试

交叉验证::

./perceptron.py --CV 5 --train training_file.txt

预测::

./perceptron.py --model model.txt --predict predict.txt --result result.txt
./perceptron.py --model model.txt < predict.txt > result.txt

其它主要参数:

* ``--iteration`` : 迭代次数

文件格式
++++++++++++++++++++++++++

训练、预测文件:与LIBSVM兼容。每行一个样本,每个样本若干项信息用空格隔开,第一项为样本类别,后面为特征形如 ``feature:weight`` ,其中 ``feature`` 可以为任意合法字符串。

模型文件:使用JSON格式存储的两个对象。第一个为所有类别的表格,第二个为一个哈希表, ``key`` 为特征,形如 ``label~feature`` , ``value`` 为权重。

结果文件:每行一个样本,仅输出分类结果即类别。

0 comments on commit 7af1d30

Please sign in to comment.