1. linux常用命令:
pwd:显示当前工作目录
exit或者ctrl+d:退出
echo:打印 例如 x=1,echo $x
gzip:压缩或解压缩 例如:gzip sample.fastq(压缩) gzip -dc sample.fastq.gz(解压缩) (后缀除了gz还可以有bz2)
tar:打包或解包 语法:tar [参数] [文件名] 其他压缩命令:gunzip,zip,bzip2
mkdir:建立文件夹
chmod:改变文件属性
2.练习安装fastqc
代码如下:
wget http://www,bioinformatics.babrabham.ac.uk/projects/fastqc/fastqc_0.11.7.zip #下载FastQC
unzip fastqc_0.11.7.zip #解压文件
cd FastQC #进入文件当前环境
ls #查看指定目录所包含的文件信息
chmod +x fastqc #由于fastqc是主程序,修改fastqc的使用权限
echo export PATH=$PATH:~/software/FastQC >> ~/.bashrc #使任何路径都能使用
source ~/.bashrc
fastqc -h #查看参数
#FastQC参数说明
# fastqc [-o output dir] [–(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN
# 主要是包括前面的各种选项和最后面的可以加入N个文件
# -o –outdir FastQC生成的报告文件的储存路径,生成的报告的文件名是根据输入来定的
# –extract 生成的报告默认会打包成1个压缩文件,使用这个参数是让程序不打包
# -t –threads 选择程序运行的线程数,每个线程会占用250MB内存,越多越快咯
# -c –contaminants 污染物选项,输入的是一个文件,格式是Name [Tab] Sequence,里面是可能的污染序列,如果有这个选项,FastQC会在计算时候评估污染的情况,并在统计的时候进行分析,一般用不到
# -a –adapters 也是输入一个文件,文件的格式Name [Tab] Sequence,储存的是测序的adpater序列信息,如果不输入,目前版本的FastQC就按照通用引物来评估序列时候有adapter的残留
# -q –quiet 安静运行模式,一般不选这个选项的时候,程序会实时报告运行的状况。
#运行
fastqc -o./dir/ -t 6 ./data/QOE1801010ATCACG_HKCCCCCXY_L6_1.clean_fq
#注意路径设置
#查看结果
注意事项:
1、数据质控是一个综合的评价标准,其中主要指标为碱基质量与含量分布,如果这两个指标合格了,后面大部分指标都可以通过。如果这两项不合格,其余都会受到影响。
2、其中一些指标并不适合所有数据,例如DNA数据与RNA测序数据之间的差异等,要根据具体数据类型,具体分析。
每个位置的碱基测序质量。通常我们一般认为从第二个碱基开始,平均每个碱基的测序质量boxplot下四分位线在30分以上,则认为测序质量非常好
每条序列的测序质量 一般认为90%的reads测序质量在35分以上,则认为该测序质量非常好
ATCG碱基在各个位置上的分布 一般来说,AT含量高于CG含量,AT含量约28%,CG含量约22%。由于测序问题,通常第一二位置的碱基测序质量比较低,ATCG含量也不正常。这种情况不影响数据质量,如果实在介意,可在后续bowtie mapping的时候将前两个碱基去掉
参考资料:
1.二代测序百度经验
https://jingyan.baidu.com/article/49711c6149e27dfa441b7c34.html
2.linux基础代码
http://www.personal.psu.edu/iua1/courses/code-repository-2014.html
3.生信技能树
http://www.biotrainee.com/thread-977-1-1.html
学习心得:
小白入门时做什么都会碰壁,就连简单的写输出文件都弄了我半天,问题特别简单,对于语句的掌握也很生硬,硬照课本码砖,还是熟能生巧,遇见问题不知所措时是会很烦躁,但是解决后,豁然开朗那一瞬间,超满足!