Skip to content

Commit

Permalink
update
Browse files Browse the repository at this point in the history
  • Loading branch information
indexofire committed Aug 3, 2019
1 parent 2e9e95a commit 43d76e9
Show file tree
Hide file tree
Showing 4 changed files with 78 additions and 2 deletions.
Empty file.
15 changes: 15 additions & 0 deletions docs/C02_Common-Utility/06_multiqc.md
Original file line number Diff line number Diff line change
@@ -0,0 +1,15 @@
# MultiQC

---

!!! Abstract "内容介绍"
MultiQC 是一个将数据质控结果汇总并生成报告的软件。


## 安装

```bash
$ conda create -n multiqc
$ conda activate multiqc
(multiqc)$ conda install multiqc qualimap fastqc snpeff gatk
```
55 changes: 54 additions & 1 deletion docs/C11_Insilico-Genome-Application/02_mlst.md
Original file line number Diff line number Diff line change
Expand Up @@ -22,7 +22,7 @@ $ conda activate mlst
MLST 支持 `.fa`,`.fasta`,`.gb`,`.gbk`,`.fna`以及这些格式的gz压缩包格式的文件。不加参数可以对所有物种数据库进行扫描,加上参数`--scheme`可以对指定物种进行扫描。

```bash
# 直接扫描 fasta 数据
# 直接扫描 fasta 数据,软件会对序列位点进行判断,选择合适的物种数据库
(mlst)$ mlst mygenome.fasta

# 支持 multiple fasta 格式
Expand All @@ -33,8 +33,24 @@ MLST 支持 `.fa`,`.fasta`,`.gb`,`.gbk`,`.fna`以及这些格式的gz压缩包

# 查看可以扫描的物种
(mlst)$ mlst --list

# 使用 listera monocytogenes 物种数据库扫描
(mlst)$ mlst --scheme lmonocytogenes data/*

# 将结果保存
(mlst)$ mlst --scheme senterica fna/*.fna > mlst.result
```

更新数据库:MLST数据库随着新添加的数据而不断更新,使用bigsdb建立的MLST数据库可以很方便的更新allele序列和菌株数据。mlst工具也提供了自动化脚本工具更新数据库。

```bash
# 更新pubmlst数据库
(mlst)$ cd $CONDA_PREFIX/scripts
(mlst)$ ./mlst-download_pub_mlst | bash
(mlst)$ mv ../db/pubmlst ../db/pubmlst.old
(mlst)$ mv pubmlst ../db
# 更新blast数据库
(mlst)$ ./mlst-make_blast_db
```

## 3. 应用举例
Expand All @@ -53,3 +69,40 @@ $ esearch -db assembly -query "Bacillus cereus[ORGN] AND latest[SB]" | \
(mlst)$ mlst --scheme bcereus *.fna.gz > ../bcereus-mlst-result.txt
(mlst)$ cat ../bcereus-mlst-result.txt
```

## 4. 其他

与MLST分析的相关操作

```bash
# 对沙门菌某个序列位点进行多重序列比对并构建进化树
(mlst)$ cd $CONDA_PREFI/db/pubmlst/senterica
# 多重序列比对,大部分位点的序列长度一致的,可以省略比对这一步。
# 但个别位点存在插入与缺失碱基的需要比对后构建进化树
$ mafft aroC.tfa > aroC.maf
# 构建进化树
$ raxmlHPC-PTHREADS-AVX2 -f a -x 12345 -p 12345 -m GTRGAMMA -#500 -s aroC.maf -n aroC -T 40

# 将所有ST位点序列连锁构建进化树
(mlst)$ cd $CONDA_PREFI/db/pubmlst/senterica
$ awk -F'\t' '{if(NR>1) \
> system("seqkit grep -w 0 -p aroC_"$2" aroC.tfa | tail -1 >> ST_"$1); \
> system("seqkit grep -w 0 -p dnaN_"$3" dnaN.tfa | tail -1 >> ST_"$1); \
> system("seqkit grep -w 0 -p hemD_"$4" hemD.tfa | tail -1 >> ST_"$1); \
> system("seqkit grep -w 0 -p hisD_"$5" hisD.tfa | tail -1 >> ST_"$1); \
> system("seqkit grep -w 0 -p purE_"$6" purE.tfa | tail -1 >> ST_"$1); \
> system("seqkit grep -w 0 -p sucA_"$7" sucA.tfa | tail -1 >> ST_"$1); \
> system("seqkit grep -w 0 -p thrA_"$8" thrA.tfa | tail -1 >> ST_"$1)}' \
> senterica.txt
# 去除\n,添加序列名称
$ for i in ST_*; do sed -i ':a;N;s/\n//;ta' $i; sed -i '1i\>'$i'' $i; done
# 形成单个fasta文件
$ for i in ST_*; do cat $i >> ST.fna; done
# 构建进化树
$ mafft ST.fna > ST.maf
$ raxmlHPC-PTHREADS-AVX2 -f a -x 12345 -p 12345 -m GTRGAMMA -#1000 -s ST.maf -n ST -T 40

# 所有位点的dN/dS分析

# 基于MLST位点的种群结构分析
```
10 changes: 9 additions & 1 deletion docs/C12_Metagenomics-Analysis/02_centrifuge.md
Original file line number Diff line number Diff line change
Expand Up @@ -3,7 +3,9 @@
---

!!! Abstract "内容简介"
Centrifuge 是一个序列taxnomic分类软件,可以用来做宏基因组分析,也常用来做微生物测序序列污染鉴定。
Centrifuge 是一个序列taxnomic分类软件,可以用来做宏基因组分析,也可以用来做微生物测序序列污染鉴定。

- 版本: v1.0.3 beta

## 安装

Expand All @@ -16,8 +18,14 @@ $ conda activate centrifuge
(centrifuge)$ aria2c ftp://ftp.ccb.jhu.edu/pub/infphilo/centrifuge/data/p_compressed+h+v.tar.gz
# 解压缩数据库文件
(centrifuge)$ tar zxvf p_compressed+h+v.tar.gz -C $HOME/dbs/centrifuge
```

## 使用

```bash
# 扫描 fasta 序列
(centrifuge)$ centrifuge -x $HOME/dbs/centrifuge/p_compressed+h+v -U example.fa --report-file report.txt -S results.txt

# 扫描 fastq 序列
(centrifuge)$ centrifuge -x $HOME/dbs/centrifuge/p_compressed+h+v -U S1_R1.fastq --report-file S1_R1-report.txt -S S1_R1-results.txt
```

0 comments on commit 43d76e9

Please sign in to comment.