近日,厦门大学信息学院、健康医疗大数据国家研究院俞容山教授课题组在Cell Press旗下期刊Cell Reports Methods上发表了题为 “Tracing unknown tumor origins with a biological-pathway-based transformer model”的最新研究成果。
癌症转移是导致癌症相关死亡的主要原因,约占90%。癌症转移发生在晚期肿瘤细胞能够脱离原发肿瘤组织,经过循环系统和淋巴系统侵入远端组织并在次级部位增殖。然而,在3%至5%的癌症患者中,传统诊断方法无法确定原发肿瘤位置,导致无法确定癌症的原发部位(CUP)。CUP指的是原发解剖部位未确定的转移性恶性肿瘤,临床预后极差,中位生存期不到一年。尽管有免疫组织化学和组织病理学检查等临床诊断工具,但由于其灵敏度和特异性有限,传统方法仅能识别25%的CUP患者。因此,开发额外的工具来辅助CUP的鉴定具有重要的临床意义。
Figure 1. The workflow of the BPformer
为了应对这一挑战,厦门大学俞容山团队开发了一种名为BPformer的深度学习方法(图1),结合Transformer模型与生物通路的先验知识。BPformer在来自32种癌症类型的10,410个原发肿瘤转录组数据上进行了训练,在原发肿瘤、取自原发部位和转移部位的转移肿瘤上分别达到了94%、92%和89%的显著准确率,超越了现有方法,展示了优越的预测准确性和跨平台的良好泛化能力,特别是在取自转移部位的转移肿瘤数据上表现出色(图2)。此外,BPformer在回顾性研究中得到了验证,与通过免疫组织化学和组织病理学诊断的肿瘤部位一致。更重要的是,BPformer利用多头注意机制,提取转录组中的基因特异性特征,从而有效分析基因间的相互依赖关系,能够基于肿瘤起源鉴定的贡献对通路进行排序,帮助将致癌信号通路分类为:(1)不同癌症之间高度保守的通路;(2)依癌症起源而高度可变的通路。
Figure 2. Performance comparisons of BPformer on external transcriptome test datasets
为便于研究人员利用BPformer进行肿瘤组织来源诊断,我们开发了一个公开的在线网页服务器——BPformer在线平台(https://cup.bpformer.com/index/)。这项研究的发表不仅为CUP的识别提供了新的工具,还为理解肿瘤转移的分子机制提供了宝贵的生物学见解。
厦门大学医学院、健康医疗大数据国家研究院博士生谢佳静、厦门大学信息学院硕士生陈莹和厦门大学医学院、健康医疗大数据国家研究院博士生骆世杰,为文章的共同第一作者。厦门大学信息学院俞容山教授,厦门大学生命科学学院童梦莎助理教授,厦门大学附属中山医院丁鑫医生,为文章共同通讯作者。本项目获得厦门大学汪德耀优秀研究生奖学金项目支持。
相关链接:
论文:https://www.cell.com/cell-reports-methods/fulltext/S2667-2375(24)00153-X