miRDeep-P2 利用small RNA 二代测序结果识别植物中的miRNA基因,尤其是那些尚未得到较好注释的物种。

安装篇

miRDP2是一个分析流程,也就意味着执行该软件之前需要先安装其他软件

  • Bowtie : 比对软件,适合35bp点的短读
  • Bowtie2: 比对软件, 适合50bp ~ 1000 bp的短读
  • Vienna: RNA二级结构预测软件大礼包

预先安装以上软件之后,然后在mirdp2下载最新版的miRDP2, 以及ncRNA_rfam.tar.gz

# 个人习惯: 生信软件安装在 /opt/biosoft 下载
tar xf miRDP2-v1.1.2
mv 1.1.2 /opt/biosoft/miRDP2-v1.1.2

注意: 1.1.2版本的miRDP2-v1.1.2_pipeline.bash脚本中存在一行bug,src=${0%%/miRDP2-v1.1.1_pipeline.bash}, 原本目标是利用变量名替换获取执行文件的路径,然而它却忘了将1.1.1改成1.1.2了,请按照我下面的代码进行更改。

#src=${0%%/miRDP2-v1.1.1_pipeline.bash}
src=$(dirname $0)

在TestData下载测试数据集–TestData.tar.gz 。

运行篇

新建一个文件夹,用于存放下载的测试数据集

mkdir -p miRDP2_Test

之后将下载的测试数据集和非编码RNA的Rfam文件上传到该文件夹中,对两个文件进行解压缩

tar xf ncRNA_rfam.tar.gz
tar xf TestData.tar.gz

分别为参考基因组和和非编码RNA的Rfam建立索引

bowtie-build --threads 8 -f ./TestData/TAIR10_genome.fa ./TestData/TAIR10_genome
# 为Rfam建立索引,一定得在流程的script/index 目录下
bowtie-build --threads 20 -f ./ncRNA_rfam.fa /opt/biosoft/miRDP2-v1.1.2/scripts/rfam_index

运行流程

miRDP2-v1.1.2_pipeline.bash -g ./TestData/TAIR10_genome.fa -i ./TestData/TAIR10_genome -f ./TestData/GSM2094927.fa -o . &
# -g: 基因组序列
# -i: bowtie索引
# -f sRNA-seq 文件
# -o 输出文件夹

运行结束之后会在当前目录下出现一个目录 GSM2094927-15-0-10, 主要关注如下内容:

  • miRNA预测结果: GSM2094927-15-0-10_filter_P_prediction, 每列的内容分别为,“染色体编号”,“所在链”,“代表性的短读编号”,“前体编号”,“成熟miRNA位置”,“前体位置”,“成熟序列”,“前体序列 ”
  • 日志文件: script_logscript_err, 在运行出错时用于排除

数据预处理

这一步是为了给流程提供可用的输入文件,主要是将fastq文件转换成流程所需的fasta文件。

第一步: 去接头。miRNA长度仅有21 nt,而测序一般至少都有50bp,因此需要去除一些接头序列。这一步公司负责处理。如果要自己处理,我推荐用cutadapt.

第二步: 将fastq文件转成fasta文件

第三步:去除冗余序列, 每个短读的编号形如"read0_x29909", x后面表示相同的序列数

最后要保证FASTA中的每个序列都唯一。