厦门大学健康医疗大数据研究院
健康医疗大数据国家研究院 | 数字福建健康医疗大数据研究所
National Institute for Data Science in Health and Medicine,Xiamen University
语言选择: 中文简体中文版 ∷  ENGLISH英文版
最新动态 您的位置: 首页 > 新闻中心 > 最新动态 > 正文 >
王颖团队在微生物领域和单细胞领域取得新进展
2025-12-16 返回列表

近日,厦门大学健康医疗大数据国家研究院王颖教授团队在微生物组学与单细胞人工智能领域取得系列重要进展,相关成果于2025年先后发表于国际知名学术期刊《Communications Biology》《Genome Research》和《BMC Biology》。这三项研究围绕肿瘤转录组病毒识别、基因调控网络推断和癌细胞精准捕获等关键问题,做出了一系列有益的探索。

2025年12月,团队在国际知名学术期刊 《Communications Biology》 在线发表题为 “ViTrace detects viral signatures in tumor transcriptomes using a hybrid language model” 的研究论文。研究提出了一种基于混合语言模型的病毒检测方法 ViTrace,可在肿瘤转录组测序数据中高灵敏度识别病毒信号,为肿瘤发生机制研究和精准肿瘤学提供了全新技术手段。

病毒感染与肿瘤发生发展密切相关,全球约 15% 的癌症病例被认为与病毒有关。然而,在肿瘤 RNA 测序数据中,病毒序列往往高度突变、种类未知且丰度极低,传统依赖序列比对和参考数据库的方法在检测未知或远缘病毒时面临显著局限,严重制约了肿瘤相关病毒的系统性研究。针对这一难题,研究团队提出 ViTrace 模型,将Transformer 语言模型与密码子级卷积神经网络相结合,在无需依赖完整参考数据库的情况下,自动学习病毒在核酸和编码层面的内在特征。

研究结果表明,ViTrace 不仅为肿瘤转录组中病毒检测提供了高效、可扩展的计算框架,也为系统解析病毒在肿瘤微环境中的作用机制、探索新的致癌因子和潜在治疗靶点奠定了重要基础。

厦门大学健康医疗大数据国家研究院博士研究生周峰为论文第一作者,厦门大学王颖教授为通讯作者。该研究得到了国家自然科学基金及多项科研项目的资助。

原文链接:https://doi.org/10.1038/s42003-025-09211-4

图 1    ViTrace 系统框架

2025年10月4日,厦门大学王颖教授团队在国际学术期刊《Genome Research》在线发表题为“Recovering gene regulatory networks in single-cell multi-omics data with PRISM-GRN”的研究论文。该研究提出了一种基于生物调控机制的单细胞多组学因果基因调控网络推断方法 PRISM-GRN,为从高噪声单细胞数据中可靠解析基因调控因果关系提供了新的解决方案。

基因调控网络刻画了转录因子通过染色质调控和转录调控共同决定基因表达的过程,是理解细胞功能和疾病机制的关键。然而,现有单细胞调控网络推断方法多依赖统计相关性,缺少生物机制引导的调控推断,难以区分真正的因果调控关系。因此,王颖教授团队提出了 PRISM-GRN,一种基于生物调控机制的单细胞多组学因果基因调控网络推断方法。该框架从转录调控的生物学过程出发,在统一的概率模型中显式刻画“染色质可及性影响转录因子结合,进而调控基因表达”的因果链条,将单细胞转录组和染色质可及性数据有机融合,从机制层面约束调控推断和因果关系。

在模型设计上,PRISM-GRN 引入多模态数据和先验调控建模,使推断结果既符合已知生物调控规律,又能够适应单细胞数据高噪声和强异质性的特点。通过多组数据集评估及下游分析,PRISM-GRN 能够准确恢复大量已验证的调控关系,显示出较强的因果一致性和生物学可信度,并且在多种生物场景下显示出其在发现调控关系上的作用。该方法为从单细胞多组学数据中解析细胞类型特异的因果调控机制提供了新思路,在发育、生物医学和功能基因组学研究中具有重要应用价值。

厦门大学健康医疗大数据国家研究院王颖教授团队2021级博士研究生章文浩是本文第一作者,王颖为该论文的通讯作者。该研究得到了国家自然科学基金及多项科研项目的资助。

原文链接: https://www.genome.org/cgi/doi/10.1101/gr.280757.125.  

图 2 PRISM-GRN的系统框架

2025年7月,厦门大学王颖教授团队在国际知名学术期刊《BMC Biology》在线发表题为“CanCellCap: robust cancer cell capture across tissue types on single-cell RNA-seq data by multi-domain learning” 的研究论文。该研究可在不同组织类型、癌种及测序平台下稳健、精准地识别单细胞转录组数据中的癌细胞,为肿瘤单细胞研究与精准医学提供了通用而高效的技术工具。

单细胞RNA测序技术为揭示肿瘤异质性和演化机制提供了前所未有的分辨率,但由于不同组织来源、癌种差异以及测序平台带来的数据偏差,准确区分出癌细胞仍是领域内的关键难题。传统方法在跨组织、跨平台或未知癌种场景下泛化能力有限,严重制约了真实应用。在该研究中,团队系统整合了来自 13 种组织、23 种癌症类型、7 种测序平台的 30 余万单细胞数据,构建了CanCellCap模型。在33个独立测试数据集多项指标中均显著优于现有主流方法,在未知癌种、未知组织类型甚至跨物种(小鼠)数据中仍保持稳定性能。

研究结果表明,CanCellCap 不仅显著提升了癌细胞识别的准确性与泛化能力,也为跨组织、跨平台的肿瘤单细胞分析提供了统一而可靠的基础模型。为促进相关领域发展,研究团队已公开模型代码与数据资源,欢迎学术界与临床研究者进一步应用与拓展。

厦门大学健康医疗大数据国家研究院王颖教授团队2022级博士研究生白佳兴为论文第一作者,王颖教授、黄晓兵教授与林琛教授为论文共同通讯作者。该研究得到了国家自然科学基金及多项科研项目的资助。

原文链接:https://doi.org/10.1186/s12915-025-02337-1

图3    CanCellCap的系统框架