如何对二代测序数据进行质量分析?

时间:2022-07-10 19:48:20 其他 我要投稿
  • 相关推荐

如何对二代测序数据进行质量分析?

从事生物信息学分析的学生和工作人员都会接触到二代测序数据,我们从测序公司拿到所需要的数据之后,首先最关心的问题就是测序数据的质量好不好,本文介绍一下如何对二代测序数据进行质量分析(QC)

工具/原料

linux系统:ubuntu 或者 服务

fastqc

方法/步骤

1

安装fastqc

注意将fastqc加入到系统环境变量中,以便于在终端或命令行中直接运行

具体安装方法参考fastqc官方手册

2

在命令行中直接运行命令

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file]

output dir指的是输出结果路径

extract参数指的是输出结果是否解压

-f 参数 是输入文件的格式,指的是测序数据

3

运行fastqc:

fastqc seqfile1.fq seqfile2.fq

4

输出结果:在output dir目录下的一个压缩文件(未压缩)

通常我们只需关注如下几个结果

1 每个位置的碱基测序质量。通常我们一般认为从第二个碱基开始,平均每个碱基的测序质量boxplot下四分位线在30分以上,则认为测序质量非常好

5

2.每条序列的测序质量 一般认为90%的reads测序质量在35分以上,则认为该测序质量非常好

6

3. ATCG碱基在各个位置上的分布 一般来说,AT含量高于CG含量,AT含量约28%,CG含量约22%。由于测序问题,通常第一二位置的碱基测序质量比较低,ATCG含量也不正常。这种情况不影响数据质量,如果实在介意,可在后续bowtie mapping的时候将前两个碱基去掉


【如何对二代测序数据进行质量分析?】相关文章:

如何分析报录比数据01-31

店铺的数据分析该如何来做06-17

如何进行初中化学试卷分析03-31

数据分析报告07-28

大数据分析07-20

销售数据的分析方法07-25

大数据分析07-25

多维数据分析方法04-07

数据分析工作职责07-28

数据分析常用方法07-26