传统上,PCR用于扩增单个目标序列,而大规模平行测序的出现需要同时扩增许多共享短末端adapter的短序列模板。这种多模板PCR现在是许多常规测序准备工作流程的基础,并用于许多领域,比如定量分子生物学、DNA数据存储。然而,同时扩增许多模板也带来了挑战,最关键挑战在于不同DNA模板因序列特异性导至的非均匀扩增现象。这种扩增偏差会显著扭曲扩增子丰度数据,影响定量结果的准确性和灵敏度。传统PCR优化策略(如引物设计、退火温度调整)在单模板扩增中效果显著,但面对含数千个模板的复杂体系时,传统方法难以解决由序列本身特性引起的效率差异问题。 近日,瑞士联邦理工学院在杂志Nature communications上发表了一篇题为“Predicting sequence-specific amplification efficiency in multi-template PCR with deep learning”的文章。本研究开发了具有位置编码功能的1D-CNN模型,能够仅基于序列信息预测扩增效率,在内部验证中AUROC达到0.88,AUPRC达到0.44,表现出卓越的预测性能。研究还提出了名为CluMo的深度学习解释框架,成功识别出与低扩增效率密切相关的特定序列 motif,并发现了adapter介导的自引物形成是导至低扩增效率的主要原因。 图片来源:Nature communications 主要内容 多模板PCR中的非均匀扩增 作者在90个PCR循环中,对具有共同末端引物结合位点的12,000个随机序列的扩增子覆盖率变化进行了跟踪。结果显示,在连续扩增过程中,相当数量的扩增子序列要么严重不足,要么在测序数据中不再存在(下图b)。且分析表明观察到的一些序列的低扩增效率并不是由序列的GC含量引起的。 量化分析显示约2%的随机序列存在显著低于平均水平的扩增效率(相对效率低至80%),这些序列在60个循环后几乎从测序数据中消失(下图c)。实验表明,这些扩增效率较低的序列是与它们的序列有关。 多模板PCR中固有的非均匀扩增。图片来源:Nature communications 位置序列信息对于预测扩增不良至关重要 作者深入研究了实验中表现最差的 2% 序列(下图 a)。以 GC 含量和碱基频率作为特征的回归模型表现不佳(下图 b、c 中的灰色线),这表明某些序列扩增不良不能仅用碱基组成或 GC 含量来解释。 作者训练了三种深度学习模型:RNN、1D-CNN和带位置编码的1D-CNN。其中带有位置编码的1D-CNN模型表现最佳,使用五重交叉验证,平均AUROC分别为0.88和0.87,平均AUPRC(精确度-召回率曲线下面积)分别为0.42和0.44(下图b)。研究进一步验证了模型的泛化性(下图c),且引入位置编码对1D-CNN的性能有很大影响,表明扩增效率低主要是由于模板序列中的位置特异性特征。 位置序列信息对于预测扩增不良至关重要。图片来源:Nature communications 与低PCR效率相关的位置基序 作者开发了一种基于DeepLIFT的基序发现方法CluMo,来试图阐明低PCR效率相关的序列特征,并成功发现了几个与低扩增效率密切相关的位置基序。结果显示,大多数基序包括一个共同的CGTG子序列,且这些基序明显倾向于靠近引物结合位点(下图c)。 进一步研究发现,adapter介导的自引物形成(adapter-mediated self-priming)是导至低扩增效率的主要原因。CGTG等motif与5'端adapter序列形成发夹结构(下图f),在标准退火温度下也易形成,从而抑制引物退火并促进无效扩增产物形成。在3 '方向上移动基序延长发夹环会降低其热力学稳定性,从而降低对扩增效率的预期影响,这解释了在扩增效果较差的序列中,观察到的基序在5′-末端的位置富集。 与低PCR效率相关的位置基序。图片来源:Nature communications 模型性能和基序假说的外部验证 为了验证1D-CNN模型的性能和识别出的基序的抑制效果,作者在外部实验室制备并扩增了另一个寡核苷酸库。结果确认了模型在跨机构数据上保持稳定性能(AUROC 0.8,AUPRC 0.3,下图b)。作者还将10种基序随机插入到40种随机选择的序列中,每个序列在5个不同的位置,结果观察到不同的基序和位置对PCR效率有不同的抑制作用(下图c,左)。CGTG相关的基序在5′-和3′-端最为突出。综上所述,外部验证的结果有力地支持了CluMo识别的基序效应和训练模型的鲁棒性。 模型性能和基序假说的外部验证。图片来源:Nature communications 总结与讨论 本研究开发了具有位置编码功能的1D-CNN模型,能够仅基于序列信息预测扩增效率,在内部验证中AUROC达到0.88,AUPRC达到0.44,表现出卓越的预测性能。研究还提出了名为CluMo的深度学习解释框架,成功识别出与低扩增效率密切相关的特定序列 motif,并发现了adapter介导的自引物形成是导至低扩增效率的主要原因。 这项研究不仅解决了多模板PCR中长期存在的扩增偏差问题,更重要的是提供了一套从数据生成到机制解析的完整研究范式,为理解复杂序列功能关系提供了新的技术路径。通过精准预测和优化扩增效率,该技术有望推动DNA数据存储技术向更高密度、更可靠方向发展,同时为精准医疗等领域的分子诊断技术提供重要支撑。 |
/3