DNA甲基化作为表观遗传学的重要组成部分,在基因表达调控和细胞类型分化中扮演着关键角色。近年来,基于DNA甲基化的肿瘤分类技术因其高准确性和临床实用性,逐渐成为肿瘤诊断中的重要工具。现今已经开发了几种探测5mC甲基组的方法,每种方法都提供了不同目标区域和不同分辨率水平的DNA甲基化信息,包括亚硫酸氢盐全基因组测序(WGBS),靶向甲基化测序(Targeted methyl-seq),基于微阵列的技术以及低覆盖全基因组纳米孔测序等。所有这些方法都提供了高度一致的结果;然而,不同的基因组覆盖范围和深度需要不同的分析特异性分类方法。目前仍迫切需要一种能够跨平台预测肿瘤类别的精确模型。
近日,杂志Nature Cancer上发表了一篇题为“crossNN is an explainable framework for cross-platform DNA methylation-based classification of tumors”的文章。文章介绍的crossNN框架为跨平台的DNA甲基化肿瘤分类提供了一种简单、准确且可解释的方法。通过处理不同平台和测序深度的甲基组数据,crossNN模型实现了高精度的肿瘤分类。基于crossNN的分类器可以区分所有器官部位的170多种肿瘤类型,脑肿瘤和泛癌模型的精确度分别为99.1%和97.8%。此外,该模型的解释性为理解肿瘤分类的生物学基础提供了有力支持,并为潜在生物标志物的发现提供了新的思路。
crossNN是一种基于神经网络的机器学习框架,旨在通过处理不同平台和测序深度的甲基组数据,实现准确的肿瘤分类。crossNN的模型架构(图a)相对简单,由一个输入层和一个输出层组成,两层之间全连接且没有偏置。这种设计使得模型能够捕获输入CpG位点与甲基化类别之间的线性关系,同时保持模型的简洁性和可解释性。
为了训练crossNN模型,研究人员使用了包含2801个样本的Heidelberg脑肿瘤v11b4参考数据集,涵盖了82种肿瘤类型和9种非肿瘤对照类。数据主要来源于Illumina 450K微阵列平台,特征空间固定且主要覆盖CpG岛和启动子区域的CpG位点。模型通过随机掩盖输入数据的方式进行训练,使得模型能够处理稀疏的甲基组数据。
模型体系结构概述。图片来源:Nature Cancer
crossNN模型在训练数据集上通过五折交叉验证(CV)进行了性能评估。结果显示,模型在甲基化类别(MC)水平上的整体准确率为96.11%,在甲基化类别家族(MCF)水平上的准确率为99.07%,优于ad-hoc RF模型。
作者在不同微阵列和测序平台上生成的独立队列中验证最终模型,包括Illumina 450K、EPIC 和EPICv2微阵列,以及纳米孔低通WGS,Illumina靶向甲基-seq和Illumina WGBS。结果显示,不同的平台中,CpG特征数量变化了两个数量级(图a-g)。尽管如此,模型实现了0.91的高总体精度和0.95的曲线下面积(AUC);MCF水平总体准确率为0.96,平均AUC为0.95 (图c- i)。这些结果证明了crossNN模型在不同平台和测序深度下的鲁棒性和可扩展性。
模型性能评价及不同平台上的验证。
图片来源:Nature Cancer
crossNN模型的架构使得其能够解释每个CpG特征在肿瘤分类中的重要性。通过分析连接输入CpG特征和输出层的边的权重,可以揭示哪些CpG特征对特定肿瘤类型的分类具有重要影响。具有最高正权重和负权重的CpG位点在肿瘤(亚)类型之间存在差异甲基化,这有助于揭示肿瘤类型识别的生物学机制,如起源细胞,并发现潜在的生物标志物。例如,作者发现与Wnt信号通路相关的基因在髓母细胞瘤的Wnt激活亚型中显著富集(图c),这表明模型能够识别与病理相关生物学过程相关的CpG特征。
模型的可解释性与生物学意义。
图片来源:Nature Cancer
为了探索crossNN架构的通用性,研究人员还训练了一个pan-cancer分类器。该分类器使用多个器官部位的178种肿瘤类型的参考数据集进行训练,内部验证显示,pan-cancer分类器在MC水平和MCF水平的总体准确率分别为94.82%和97.61%。作者接着在不同的微阵列和测序平台上生成数据的独立验证队列中验证了该模型(图d-u),结果显示,pan-cancer分类器在MC和MCF水平的总体准确率分别为83%和88%。在所有主要肿瘤类型中,准确率都很高。这些证明了crossNN架构在跨肿瘤类型分类中的通用性和有效性。
pan-cancer分类器的训练与验证。
图片来源:Nature Cancer
本文介绍的crossNN框架为跨平台的DNA甲基化肿瘤分类提供了一种简单、准确且可解释的方法。通过处理不同平台和测序深度的稀疏甲基组数据,crossNN模型实现了高精度的肿瘤分类,并在独立验证中表现出了良好的鲁棒性和可扩展性。基于crossNN的分类器可以区分所有器官部位的170多种肿瘤类型,脑肿瘤和泛癌模型的精确度分别为99.1%和97.8%。此外,该模型的解释性为理解肿瘤分类的生物学基础提供了有力支持,并为潜在生物标志物的发现提供了新的思路。未来,随着甲基化测序技术的不断发展和新肿瘤类型的不断发现,crossNN框架有望在临床诊断中发挥更加重要的作用。