立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 4507|回复: 0

[分享] 测序项目评估和运行成本比较

[复制链接]
发表于 2014-3-4 08:00 | 显示全部楼层 |阅读模式

登陆有奖并可浏览互动!

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录 手机动态码快速登录

×
自《全球访谈纪要:PacBio RS第三代单分子测序系统》专题发布近一年以来,陆续收到了广泛读者的积极反馈。有读者点评,访谈系列从全球专家经验分享的视角给国内科研工作者带来了新技术应用理念的饕鬄盛宴,但同时也希望能再接再厉,着眼于当下测序的项目评估和运行成本指点迷津。

针对这些问题,笔者查阅了Genome Biology于2013年7月刊发表的一篇题为《The advantages of SMRT sequencing》的综述,作者分别是大名鼎鼎的诺贝尔奖得主Richard Roberts、美国Broad研究院的计算生物学家Mauricio Carneiro、美国冷泉港实验室的生物信息学家Michael Schatz,他们三人可谓是新一代测序应用的风云人物,分别用SMRT测序技术开辟了甲基化组学、基因分型验证和混合拼接组装等方面的突破性进展,相信看过全球访谈系列的读者都能耳熟能详了。


该综述开篇名义,在新一代测序技术中,SMRT测序往往因通量小和一直以来的关于准确率低的谣言而被忽视,但事实上,超长读长、实时检测碱基修饰、超高精度这三个特点正使得SMRT成为完成小基因组完整测序的最理想工具。综述的目的是为了给三代技术答疑解惑提供提纲式的论据框架,并推荐最具代表性的文献,所以文末的18篇参考文献是三代在小基因组测序应用中的集大成者。综述也再次重申了测序的意义,认为不能为了测序而测序,测序只是手段,是开端,目的是为了发现功能基因,回答基因功能和疾病表型的关联,不能获得可注释级别的精细图甚而完整图的任何测序行为绝不是科技转化的驱动力。

因此,在启动大量经费进行大规模测序时,理性地进行项目评估是必须要率先迈开的一步。比如综述给了某个5.2 Mb炭疽基因组(B._anthracis Ames Ancestor)进行读长评估的例子,同样的覆盖度下,100 bp读长最终获得98个Contig,1000 bp读长最终获得31个Contig,5000 bp读长最终获得1个Contig。基于短读长和偏好扩增的二代技术实现的只能是大量的片段化组装,要完成完整或精细组装还需要额外的实验操作和后续测序,总费用将非常昂贵。


综述引用的其中两篇文章(Finished bacterial genomes from shotgun sequence data. Genome Res 2012, 22:2270-2277.和Reducing assembly complexity of microbial genomes with single-molecule sequencing. [http://arxiv.org/abs/1304.3752])都提到了测序评估和成本比较,这个成本是在完成基因组完整测序的基础上计算的,而且不再是以往的以$/Mb计算,因为深谙测序韬略的有识之士心里都清楚,单纯的数字游戏是不能给项目成本预算提供任何实质性帮助的。


其中《Reducing assembly complexity of microbial genomes with single-molecule sequencing》这篇文章给出的分析最为详尽,发起人是美国国家生化防卫分析与对策中心(NBACC)的Sergey Koren和Adam Phillippy以及美国农业部(USDA)的Timothy Smith等人。他们为了评估测序项目,在数据库中找了2267种已经获得完整基因组图谱的微生物和古菌,并根据内部重复序列的长度分成三类:第一类在数量上占69.07%,基本上只含有0.5-5 Kb长度的重复序列;第二类占7.59%,主要含5-7 Kb长度的重复序列;第三类占23.33%,含有7 Kb以上长度的重复序列。然后他们分别采用代表二代的500 bp读长序列和代表三代的5000 bp读长序列,通过软件算法进行模拟拼接,主要评估读长能否在全基因组范围内跨越所有的重复序列,以Gap数量作为最终评估指标,而覆盖度方面,二代假设成无限程度覆盖模式,三代仅用50-200X。最终的结果是:第一类中,以Bacillus anthracis Ames为例,三代方法能拼成完整图,但二代方法还留有20个Gap;第二类中,以Yersinia pestis CO92为例,三代方法同样能拼成完整图,但二代方法还留有161个Gap;第三类中,以Escherichia coli O26:H11 11368为例,三代方法仅留有16个Gap,但二代方法还留有171个Gap。考虑到以上只是软件模型模拟出来的结果,他们还专门选择了6个菌株分别在PacBio、454、MiSeq平台上进行实际测序,最终验证了这一模型的可靠性。且PacBio经Quiver打磨后的精度达到并超过了99.99995%,而一般完成基因组完整图的精度级别在99.999%,所以PacBio在精度上完全胜任。


在对三代试剂更新换代进行一番分析后,他们继续得出结论,相当于用三代方法,近75%的微生物和古菌基因组都可以获得完整图,或者说99%都可以控制到Gap数量10个以内,覆盖度则需要50-200X,一般情况下都是100X,100X以上的部分对组装的贡献几乎为零,即100X三代数据几乎可以包打天下(他们发现组装效果和基因组大小之间不存在明显对应关系,即这套模拟的结论同样可以应用到大型基因组上);而二代数据即使用到无限级覆盖度,都不能获得完整图,因此后续方案设计和高昂费用将是个噩梦。


那么后续的补洞费用到底有多高昂呢,或者说真正意义上获得完成图的总费用到底是多少呢?!直接综合两篇文章(Finished bacterial genomes from shotgun sequence data. Genome Res 2012, 22:2270-2277.和Reducing assembly complexity of microbial genomes with single-molecule sequencing. [http://arxiv.org/abs/1304.3752])的分析,费用数据主要来自Duke大学和Illinois大学的实验室和外部合作机构,我们来看下总的结果。假如用Illumina平台对5 Mb基因组进行测序,采用ALLPATHS组装,之后预留50个Gap必须手工填补,总共需要花费$ 13,124。如果这些Gap后续用PacBio长片段测序去填补,成本直接缩小至$2,952。那么这个成本算是终极廉价了吗?就怕你不敢想象!不要忘了,NGS测序容易引入系统误差,尤其是早期NGS系统。既然如此,不如干脆忘掉早期NGS数据,推倒重来吧!假如换成PacBio从头测序,用没有升级的RS系统,一个SMRT Cell产出125 Mb数据量,那么一个5 Mb基因组需要花费6个SMRT Cell(100-150X),成本是$1,625,得到完整基因组图谱。更进一步,假如换成升级后的RS II系统,用XL-C2试剂盒,一个SMRT Cell的通量大约500 Mb,仅用一个SMRT Cell就可以获得100X覆盖度,算上建库、质控、测序耗材总共花费为$ 636.96,得到的就是完整基因组图谱,不需要后续补洞。文章作者没有进一步计算,但考虑到PacBio在2013年Q4又推出了P5试剂盒,平均读长达到了8500 bp,通量达到了0.8-1 Gb/SMRT Cell,如此一来,对一个5 Mb基因组进行从头测序,仅需$400。$13,124+X(X为Illumina测序成本)对比$400,如果这个成本都不会选择,科学家们就要被中国大妈耻笑了。


因此,无论从项目评估和测序成本两方面进行考量,三代测序技术都是最优的,更何况还可以在测序同时实时检测碱基修饰,这也无怪乎业界已经将三代测序定义为微生物测序领域的金标准。评估考核还可以适当引申到当下炙手可热的临床样本靶向测序领域,这需要从通量的角度上去做理性的选择。比如在样本数量不多的前提下,那么就完全可以选择三代作为主导做单倍体分型、稀有突变鉴定、mRNA可变剪切、未知碱基修饰等精细分析,但如果样本数动辄几万例,那么只能选择高通量的二代作为主导做传统的已知突变筛查等工作,此时三代可以在复杂基因分型场合作配合验证。所以三代测序还有必要在通量上不断寻求突破,就技术而言,这是它与二代相比的唯一弱点。


延伸阅读:
全球访谈纪要:PacBio RS第三代单分子测序系统


楼主热帖
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表