用户名
UID
Email
密码
记住
立即注册
找回密码
只需一步,快速开始
微信扫一扫,快速登录
开启辅助访问
收藏本站
快捷导航
门户
Portal
社区
资讯
会议
市场
产品
问答
数据
专题
帮助
签到
每日签到
企业联盟
人才基地
独立实验室
产业园区
投资机构
检验科
招标动态
供给发布
同行交流
悬赏任务
共享资源
VIP资源
百科词条
互动话题
导读
动态
广播
淘贴
法规政策
市场营销
创业投资
会议信息
企业新闻
新品介绍
体系交流
注册交流
临床交流
同行交流
技术杂谈
检验杂谈
今日桔说
共享资源
VIP专区
企业联盟
投资机构
产业园区
业务合作
投稿通道
升级会员
联系我们
搜索
搜索
本版
文章
帖子
用户
小桔灯网
»
社区
›
C、IVD技术区
›
基因测序技术
›
20160410 测序分析——使用 FastQC 做质控
图文播报
2025庆【网站十二周
2024庆中秋、迎国庆
2024庆【网站十一周
2023庆【网站十周年
2022庆【网站九周年
2021庆中秋、迎国庆
返回列表
查看:
3116
|
回复:
0
[讨论]
20160410 测序分析——使用 FastQC 做质控
[复制链接]
病理医师
病理医师
当前离线
金桔
金币
威望
贡献
回帖
0
精华
在线时间
小时
雷达卡
发表于 2025-5-24 22:16
|
显示全部楼层
|
阅读模式
登陆有奖并可浏览互动!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
前言
Hello 大家好!我是孟浩巍,一名生物信息方向的搬砖工!
之前我们已经介绍过了二代测序Illumina平台的测序原理,包括一些常用的专业术语,比如reads,flowcell,tail等等,如果大家有什么疑问请看之前的文章:
Illumina测序原理介绍
随后我们又介绍了,测序数据的储存格式FASTQ格式。今天要讲的内容会涉及到一些里面的知识。如果你忘记啦,请看看之前的文章:
FASTA与FASTQ格式介绍
Ok!那么今天我们要解决的问题是在从测序公司拿到原始数据以后,我们应该怎么评价这次的测序质量。是不是要做相应的一些后续处理。我们今天要使用的就是一个强大的工具——FastQC
FastQC的基本介绍
FastQC是一款基于Java的软件,一般都是在linux环境下使用命令行运行,它可以快速多线程地对测序数据进行质量评估(Quality Control),其官网地址为:
Babraham Bioinformatics
FastQC的下载和安装,和一般的Java软件没有什么区别,我们在这里就不做介绍了,在成功安装好以后,我们就在命令行模式下,输入fastqc就可以调用这个程序,界面如下:
这时候我们可以选择 --help选项看一下帮助文档:
# 基本格式
# fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN
# 主要是包括前面的各种选项和最后面的可以加入N个文件
# -o --outdir FastQC生成的报告文件的储存路径,生成的报告的文件名是根据输入来定的
# --extract 生成的报告默认会打包成1个压缩文件,使用这个参数是让程序不打包
# -t --threads 选择程序运行的线程数,每个线程会占用250MB内存,越多越快咯
# -c --contaminants 污染物选项,输入的是一个文件,格式是Name [Tab] Sequence,里面是可能的污染序列,如果有这个选项,FastQC会在计算时候评估污染的情况,并在统计的时候进行分析,一般用不到
# -a --adapters 也是输入一个文件,文件的格式Name [Tab] Sequence,储存的是测序的adpater序列信息,如果不输入,目前版本的FastQC就按照通用引物来评估序列时候有adapter的残留
# -q --quiet 安静运行模式,一般不选这个选项的时候,程序会实时报告运行的状况。
以我平时用的一个真实的例子:
fastqc -o ./tmp.result/fastQC/ -t 6 ./tmp.data/fastq/H1EScell-dnase-2014-GSE56869_20151208_SRR1248176_1.fq
使用的数据是2014年Dnase Hi-C的测序数据,数据下载地址:
http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSM1370433
运行一段时间以后,就会出现报告:
H1EScell-dnase-2014-GSE56869_20151208_SRR1248176_1.fq_fastqc.html
H1EScell-dnase-2014-GSE56869_20151208_SRR1248176_1.fq_fastqc.zip
使用浏览器打开后缀是html的文件,就是图表化的fastqc报告:
FastQC的报告介绍
总结信息
上图中Summary的部分就是整个报告的目录,整个报告分成若干个部分。合格会有个绿色的对勾,警告是个“!”,不合格是个红色的叉子。
基本信息
# Encoding指测序平台的版本和相应的编码版本号,这个在计算Phred反推error P的时候有用,如果不明白可以参考之前的文章。
# Total Sequences记录了输入文本的reads的数量
# Sequence length 是测序的长度
# %GC 是我们需要重点关注的一个指标,这个值表示的是整体序列中的GC含量,这个数值一般是物种特意的,比如人类细胞就是42%左右。
序列测序质量统计
# 此图中的横轴是测序序列第1个碱基到第101个碱基
# 纵轴是质量得分,Q = -10*log10(error P)即20表示1%的错误率,30表示0.1%
# 图中每1个boxplot,都是该位置的所有序列的测序质量的一个统计,上面的bar是90%分位数,下面的bar是10%分位数,箱子的中间的横线是50%分位数,箱子的上边是75%分位数,下边是25%分位数
# 图中蓝色的细线是各个位置的平均值的连线
# 一般要求此图中,所有位置的10%分位数大于20,也就是我们常说的Q20过滤
# 所以上面的这个测序结果,需要把后面的87bp以后的序列切除,从而保证后续分析的正确性
# Warning 报警 如果任何碱基质量低于10,或者是任何中位数低于25
# Failure 报错 如果任何碱基质量低于5,或者是任何中位数低于20
每个tail测序的情况
# 横轴和之前一样,代表101个碱基的每个不同位置
# 纵轴是tail的Index编号
# 这个图主要是为了防止,在测序过程中,某些tail受到不可控因素的影响而出现测序质量偏低
# 蓝色代表测序质量很高,暖色代表测序质量不高,如果某些tail出现暖色,可以在后续分析中把该tail测序的结果全部都去除
每条序列的测序质量统计
# 假如我测的1条序列长度为101bp,那么这101个位置每个位置Q之的平均值就是这条reads的质量值
# 该图横轴是0-40,表示Q值
# 纵轴是每个值对应的reads数目
# 我们的数据中,测序结果主要集中在高分中,证明测序质量良好!
GC 含量统计
# 横轴是1 - 101 bp;纵轴是百分比
# 图中四条线代表A T C G在每个位置平均含量
# 理论上来说,A和T应该相等,G和C应该相等,但是一般测序的时候,刚开始测序仪状态不稳定,很可能出现上图的情况。像这种情况,即使测序的得分很高,也需要cut开始部分的序列信息,一般像我碰到这种情况,会cut前面5bp
序列平均GC含量分布图
# 横轴是0 - 100%; 纵轴是每条序列GC含量对应的数量
# 蓝色的线是程序根据经验分布给出的理论值,红色是真实值,两个应该比较接近才比较好
# 当红色的线出现双峰,基本肯定是混入了其他物种的DNA序列
# 这张图中的信息良好
序列测序长度统计
# 每次测序仪测出来的长度在理论上应该是完全相等的,但是总会有一些偏差
# 比如此图中,101bp是主要的,但是还是有少量的100和102bp的长度,不过数量比较少,不影响后续分析
# 当测序的长度不同时,如果很严重,则表明测序仪在此次测序过程中产生的数据不可信
序列Adapter
# 此图衡量的是序列中两端adapter的情况
# 如果在当时fastqc分析的时候-a选项没有内容,则默认使用图例中的四种通用adapter序列进行统计
# 本例中adapter都已经去除,如果有adapter序列没有去除干净的情况,在后续分析的时候需要先使用cutadapt软件进行去接头,这个软件以后我会介绍
重复短序列
# 这个图统计的是,在序列中某些特征的短序列重复出现的次数
# 我们可以看到1-8bp的时候图例中的几种短序列都出现了非常多的次数,一般来说,出现这种情况,要么是adapter没有去除干净,而又没有使用-a参数;要么就是序列本身可能重复度比较高,如建库PCR的时候出现了bias
# 对于这种情况,我的办法是可以cut掉前面的一些长度,可以试着cut 5~8bp
本期总结与下期预告
在本片文章中,我们已经介绍了测序质量评估最常用的FastQC软件,并详细解读了报告内容。希望能够对大家有所帮助。可是我们还是留有一些问题,比如我一直说cut序列,去adapter,却没有给出工具的用法。所以下期我们的主题主要是,围绕着FastQC中出现的问题使用不同的fastx_trimmer,cutadapt等工具进行修正。
希望各位多多点赞支持!
孟浩巍
——————————————————————————
另外欢迎各位参加我们的知乎Live:
1. 知乎Live:如何快速入门生物信息学 (涉及内容:测序原理,生物信息学发展历史,软件的安装与调试,入门路线图,介绍了RNA-Seq的分析流程并给出实践代码);
如何快速入门生物信息学
2. 知乎Live: 生信进阶第1课-重复Nature文章 (涉及内容:肺癌相关研究现状,RNA-Seq单细胞测序,RNA-Seq的建库方法,RNA-Seq的分析流程细节,相关生信图的绘制);
生信进阶第1课-重复Nature文章
3. 知乎Live:生信进阶第2课-基因组序列
(涉及内容:介绍基因组的序列结构,hg19与hg38的区别,ENCODE计划,常用的表观组学实验原理ChIP-Seq,Hi-C等,ChIP-Seq的标准处理流程,绘图原理)
生信进阶第2课-基因组序列
4. 知乎Live:不用编程怎么做生物信息学
(涉及内容:介绍生物信息学入门的几个层次,从命令行到图形界面再到命令行,绘制生物进化树,图形界面分析平台,使用图形界面处理RNA-Seq数据,使用图形界面分析ChIP-Seq数据,UCSC genome browser,WashU genome browser)
不用编程怎么做生物信息学
原文地址:https://zhuanlan.zhihu.com/p/20731723
楼主热帖
小桔灯网业务合作须知!
如何注册小桔灯网VIP会员?
破局 | 巨头们正在剥离IVD
[
同行交流
]
禁止进口的旧仪器有哪些?
[
免疫仪器
]
瑞派宠物医生:穿越宠物眼科“手术禁区”,争分夺秒镌刻生命印记
[
血球仪器
]
女生主动起来会有多主动?
[
血球仪器
]
超详细解读——免疫组化实验,建议收藏!
[
免疫组化技术
]
医学检验技术专业研究生毕业后去医院好还是IVD行业好?
[
同行交流
]
体系审核中经常会遇到的问题和应对策略
[
NMPA体系考核
]
第11批国采来袭!75个品种大清单曝光,这些药价要“跳水”了?11批国采启动前,清单泄露?集采6年回头看:谁哭了?谁笑了?
[
同行交流
]
回复
使用道具
举报
提升卡
返回列表
发表回复
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
官方推荐
/3
【扫描左侧二维码关注微信】参与交流!
网站定期开展行业相关话题互动交流活动!对认真参与讨论的桔友将有金桔奖励!欢迎参与。
查看 »
IVD业界薪资调查(月薪/税前)
长期活动,投票后可见结果!看看咱们这个行业个人的前景如何。请热爱行业的桔友们积极参与!
查看 »
小桔灯网视频号开通了!
扫描二维码,关注视频号!
查看 »
返回顶部
快速回复
返回列表
客服中心
搜索
官方QQ群
洽谈合作
关注微信
微信扫一扫关注本站公众号
个人中心
个人中心
登录或注册
业务合作
-
投稿通道
-
友链申请
-
手机版
-
联系我们
-
免责声明
-
返回首页
Copyright © 2008-2024
小桔灯网
(https://www.iivd.net) 版权所有 All Rights Reserved.
免责声明: 本网不承担任何由内容提供商提供的信息所引起的争议和法律责任。
Powered by
Discuz!
X3.5 技术支持:
宇翼科技
浙ICP备18026348号-2
浙公网安备33010802005999号
快速回复
返回顶部
返回列表