- 相关推荐
如何对二代测序数据进行质量分析?
从事生物信息学分析的学生和工作人员都会接触到二代测序数据,我们从测序公司拿到所需要的数据之后,首先最关心的问题就是测序数据的质量好不好,本文介绍一下如何对二代测序数据进行质量分析(QC)
工具/原料
linux系统:ubuntu 或者 服务
fastqc
方法/步骤
1
安装fastqc
注意将fastqc加入到系统环境变量中,以便于在终端或命令行中直接运行
具体安装方法参考fastqc官方手册
2
在命令行中直接运行命令
fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file]
output dir指的是输出结果路径
extract参数指的是输出结果是否解压
-f 参数 是输入文件的格式,指的是测序数据
3
运行fastqc:
fastqc seqfile1.fq seqfile2.fq
4
输出结果:在output dir目录下的一个压缩文件(未压缩)
通常我们只需关注如下几个结果
1 每个位置的碱基测序质量。通常我们一般认为从第二个碱基开始,平均每个碱基的测序质量boxplot下四分位线在30分以上,则认为测序质量非常好
5
2.每条序列的测序质量 一般认为90%的reads测序质量在35分以上,则认为该测序质量非常好
6
3. ATCG碱基在各个位置上的分布 一般来说,AT含量高于CG含量,AT含量约28%,CG含量约22%。由于测序问题,通常第一二位置的碱基测序质量比较低,ATCG含量也不正常。这种情况不影响数据质量,如果实在介意,可在后续bowtie mapping的时候将前两个碱基去掉
【如何对二代测序数据进行质量分析?】相关文章:
如何分析报录比数据01-31
店铺的数据分析该如何来做06-17
如何进行初中化学试卷分析03-31
数据分析报告07-28
大数据分析07-20
销售数据的分析方法07-25
大数据分析07-25
多维数据分析方法04-07
数据分析工作职责07-28
数据分析常用方法07-26