linux入门学习1之FastQC

linux 入门基础1

1. linux常用命令：

pwd:显示当前工作目录

exit或者ctrl+d:退出

echo:打印例如 x=1,echo $x

gzip:压缩或解压缩例如:gzip sample.fastq(压缩） gzip -dc sample.fastq.gz(解压缩) (后缀除了gz还可以有bz2)

tar:打包或解包语法:tar [参数] [文件名] 其他压缩命令：gunzip,zip,bzip2

mkdir：建立文件夹

chmod:改变文件属性

2.练习安装fastqc

代码如下：

wget http://www,bioinformatics.babrabham.ac.uk/projects/fastqc/fastqc_0.11.7.zip #下载FastQC

unzip fastqc_0.11.7.zip #解压文件

cd FastQC #进入文件当前环境

ls #查看指定目录所包含的文件信息

chmod +x fastqc #由于fastqc是主程序，修改fastqc的使用权限

echo export PATH=$PATH:~/software/FastQC >> ~/.bashrc #使任何路径都能使用

source ~/.bashrc

fastqc -h #查看参数

#FastQC参数说明

# fastqc [-o output dir] [–(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN

# 主要是包括前面的各种选项和最后面的可以加入N个文件
# -o –outdir FastQC生成的报告文件的储存路径，生成的报告的文件名是根据输入来定的
# –extract 生成的报告默认会打包成1个压缩文件，使用这个参数是让程序不打包
# -t –threads 选择程序运行的线程数，每个线程会占用250MB内存，越多越快咯
# -c –contaminants 污染物选项，输入的是一个文件，格式是Name [Tab] Sequence，里面是可能的污染序列，如果有这个选项，FastQC会在计算时候评估污染的情况，并在统计的时候进行分析，一般用不到
# -a –adapters 也是输入一个文件，文件的格式Name [Tab] Sequence，储存的是测序的adpater序列信息，如果不输入，目前版本的FastQC就按照通用引物来评估序列时候有adapter的残留
# -q –quiet 安静运行模式，一般不选这个选项的时候，程序会实时报告运行的状况。

#运行

fastqc -o./dir/ -t 6 ./data/QOE1801010ATCACG_HKCCCCCXY_L6_1.clean_fq

#注意路径设置

#查看结果

注意事项：

1、数据质控是一个综合的评价标准，其中主要指标为碱基质量与含量分布，如果这两个指标合格了，后面大部分指标都可以通过。如果这两项不合格，其余都会受到影响。

2、其中一些指标并不适合所有数据，例如DNA数据与RNA测序数据之间的差异等，要根据具体数据类型，具体分析。