linux入门基础1

1. linux常用命令:

pwd:显示当前工作目录

exit或者ctrl+d:退出

echo:打印    例如  x=1,echo $x

gzip:压缩或解压缩   例如:gzip sample.fastq(压缩)   gzip -dc sample.fastq.gz(解压缩)  (后缀除了gz还可以有bz2)

tar:打包或解包   语法:tar [参数] [文件名]    其他压缩命令:gunzip,zip,bzip2

mkdir:建立文件夹

chmod:改变文件属性

2.练习安装fastqc

代码如下:

wget http://www,bioinformatics.babrabham.ac.uk/projects/fastqc/fastqc_0.11.7.zip      #下载FastQC

unzip fastqc_0.11.7.zip #解压文件

cd FastQC #进入文件当前环境

ls #查看指定目录所包含的文件信息

chmod +x fastqc  #由于fastqc是主程序,修改fastqc的使用权限

echo export PATH=$PATH:~/software/FastQC >> ~/.bashrc  #使任何路径都能使用

source ~/.bashrc

fastqc -h  #查看参数

#FastQC参数说明

# fastqc [-o output dir] [–(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN

# 主要是包括前面的各种选项和最后面的可以加入N个文件
# -o –outdir FastQC生成的报告文件的储存路径,生成的报告的文件名是根据输入来定的
# –extract 生成的报告默认会打包成1个压缩文件,使用这个参数是让程序不打包
# -t –threads 选择程序运行的线程数,每个线程会占用250MB内存,越多越快咯
# -c –contaminants 污染物选项,输入的是一个文件,格式是Name [Tab] Sequence,里面是可能的污染序列,如果有这个选项,FastQC会在计算时候评估污染的情况,并在统计的时候进行分析,一般用不到
# -a –adapters 也是输入一个文件,文件的格式Name [Tab] Sequence,储存的是测序的adpater序列信息,如果不输入,目前版本的FastQC就按照通用引物来评估序列时候有adapter的残留
# -q –quiet 安静运行模式,一般不选这个选项的时候,程序会实时报告运行的状况。

#运行

fastqc -o./dir/ -t 6 ./data/QOE1801010ATCACG_HKCCCCCXY_L6_1.clean_fq

#注意路径设置

#查看结果

 

注意事项:

1、数据质控是一个综合的评价标准,其中主要指标为碱基质量与含量分布,如果这两个指标合格了,后面大部分指标都可以通过。如果这两项不合格,其余都会受到影响。

2、其中一些指标并不适合所有数据,例如DNA数据与RNA测序数据之间的差异等,要根据具体数据类型,具体分析。

  

linux入门学习1之FastQC-编程知识网

 

linux入门学习1之FastQC-编程知识网

 

每个位置的碱基测序质量。通常我们一般认为从第二个碱基开始,平均每个碱基的测序质量boxplot下四分位线在30分以上,则认为测序质量非常好

linux入门学习1之FastQC-编程知识网

 

每条序列的测序质量 一般认为90%的reads测序质量在35分以上,则认为该测序质量非常好

linux入门学习1之FastQC-编程知识网

ATCG碱基在各个位置上的分布  一般来说,AT含量高于CG含量,AT含量约28%,CG含量约22%。由于测序问题,通常第一二位置的碱基测序质量比较低,ATCG含量也不正常。这种情况不影响数据质量,如果实在介意,可在后续bowtie mapping的时候将前两个碱基去掉

 

linux入门学习1之FastQC-编程知识网

 

 

参考资料:

1.二代测序百度经验

https://jingyan.baidu.com/article/49711c6149e27dfa441b7c34.html

2.linux基础代码

http://www.personal.psu.edu/iua1/courses/code-repository-2014.html

3.生信技能树

http://www.biotrainee.com/thread-977-1-1.html

 

学习心得:

小白入门时做什么都会碰壁,就连简单的写输出文件都弄了我半天,问题特别简单,对于语句的掌握也很生硬,硬照课本码砖,还是熟能生巧,遇见问题不知所措时是会很烦躁,但是解决后,豁然开朗那一瞬间,超满足!