本篇文章给大家分享的是有关Bedtools中如何进行是文件格式转换,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。
利用Bedtools进行文件格式转换
Bedtools是由犹他大学昆兰实验室开发的基因组算法工具集,可以对基因组广泛使用的数据格式如BAM、BED、GFF、VCF等进行交集、并集、计数及格式转变等操作。想更详细的了解Bedtools可参考官方教程:bedtools: a powerful toolset for genome arithmetic — bedtools 2.30.0 documentation。
基因组特征可以是功能元件(如基因),基因多态性(SNP、INDEL、SV)等,最基本的基因组特征是其所在的染色体、起始位置、终止位置、正负链特征,广泛使用的基因组格式为BED文件及GFF文件。
Bedtools bamtobed命令将BAM文件转换为BED文件:
$bedtools bamtobed -i test.bam
-bedpe参数,可以将BAM格式转变为BEDPE格式,只有成对双端的reads才会被输出,默认的输出格式是BED格式;
-bed12,可以输出BED12格式,默认的输出格式是BED6格式;
-tag,可以用BAM中其他tag当作BED score,默认的BED score值是BAM文件中的MAPQ值;
-cigar,会输出cigar值当作BED文件的第七列。
Bedtools bedtobam命令用于将BED文件转换成BAM文件:
$bedtools bedtobam -i test.bed -g human.hg18.genome > test.bam
-mapq,设定输出BAM文件的mapping quality,默认的mapping quality是255;
-ubam,输出未压缩的BAM文件,默认输出的是压缩后的BAM文件。
Bedtools bamtofastq命令用于从比对的BAM文件中提取fastq文件:
$bedtools bamtofastq -i test.bam -fq test.fastq
-fq2,可以将成对的fastq文件分别输出到两个文件中,但输入的BAM文件需要先对reads按名字进行排序,默认-fq输出fastq文件。