厦门大学健康医疗大数据研究院
健康医疗大数据国家研究院 | 数字福建健康医疗大数据研究所
National Institute for Data Science in Health and Medicine,Xiamen University
语言选择: 中文简体中文版 ∷  ENGLISH英文版
最新动态 您的位置: 首页 > 新闻中心 > 最新动态 > 正文 >
厦门大学俞容山教授团队开发一个基于DNA甲基化的癌症溯源可解释AI框架PathMethy
2024-10-15 返回列表

近日,厦门大学信息学院、健康医疗大数据国家研究院俞容山教授课题组在国际生信领域权威期刊Briefings In Bioinformatics上发表了题为“PathMethy: an interpretable AI framework for cancer origin tracing based on DNA methylation”的最新研究成果。


  尽管诊断技术不断进步,但仍有3%-5%的病例被归类为原发部位不明的癌症(CUP)DNA甲基化作为一种重要的表观遗传特征,对于确定转移性肿瘤的起源至关重要。我们开发了PathMethy,这是一种新型Transformer模型,它结合了通路功能类别和通路间的交互作用,能够基于DNA甲基化准确追溯CUP样本中肿瘤的起源。PathMethy在九个癌症数据集的F1分数优于七种对比方法,并准确预测了九种原发性肿瘤类型的分子亚型。它不仅在追溯原发性和转移性肿瘤的起源方面表现出色,而且在CUP病例中,与之前诊断的部位也有高度一致性。PathMethy通过突出关键通路、功能类别及其相互作用,提供了生物学见解,使我们能够全局性地理解癌症转移的生物学过程。

Figure 1. The workflow of the PathMethy

PathMethy算法整体流程包括四个主要环节(Figure 1):首先是Pathway Embedding(通路嵌入),该环节通过将CpG位点的甲基化水平与KEGG数据库中的通路信息相结合,生成包含甲基化信息和功能类别的通路嵌入,以全面表征生物通路的复杂性和互联性。其次是Pathway Crosstalk Matrix(通路交互矩阵)的构建,利用BinoX算法分析通路间的交互关系,形成描述通路间相互作用的邻接矩阵。接着是CrossTalk Transformer Encoder的应用,该编码器以通路嵌入和通路交互矩阵作为输入,通过多头自注意力机制和全连接网络,捕捉通路间的复杂关系,提供全局上下文信息。最后是Classification Head的设计,利用多层感知机和层归一化对Transformer编码器输出的类标记进行处理,实现最终的任务分类。

为便于研究人员利用PathMethy进行肿瘤组织来源诊断,我们开发了一个公开的在线网页服务器——PathMethy在线平台(https://cup.pathmethy.com)。这项研究的发表不仅为CUP的识别提供了新的工具,还为理解肿瘤转移的分子机制提供了宝贵的生物学见解。

Figure 2. The web server for PathMethy.

厦门大学医学院、健康医疗大数据国家研究院博士生谢佳静、厦门大学信息学院硕士生宋宇航为文章的共同第一作者。厦门大学信息学院俞容山教授,厦门大学生命科学学院童梦莎助理教授为文章共同通讯作者。本项目获得厦门大学汪德耀优秀研究生奖学金项目支持。


相关链接:

论文:https://academic.oup.com/bib/article/25/6/bbae497/7818162