近日,我校刘向荣教授课题组的研究成果《KLaR: Fusing Knowledge Graphs and Language Models for Biomedical Target Discovery》被 ISMB 2026 正式接收,并将收录于会议论文集,并同时发表于国际期刊 Bioinformatics。本次会议一共收到了408篇论文, 其中接收了65篇, 录取率为16%。该成果由厦门大学与杭州深极科技有限公司联合完成,体现了双方在人工智能与生物医学交叉方向的持续合作与协同创新。ISMB(Intelligent Systems for Molecular Biology)是生物信息领域公认的顶级国际学术会议之一,也被列入清华大学计算机系论文列表 A 类会议,Bioinformatics 为 CCF-A 类期刊。这也进一步凸显了该成果的学术分量, 体现了该成果在学术创新性与领域影响力方面获得国际同行认可。
生物医学靶点发现是疾病机制研究、药物研发和精准医疗中的核心问题。知识图谱能够系统组织疾病、药物、基因等复杂生物医学实体之间的关系,而语言模型则具备较强的语义理解与知识表征能力。然而,现有方法往往难以同时兼顾知识图谱的结构约束能力与语言模型的语义表达能力:一类方法主要依赖图结构信息,难以充分引入文本语义;另一类方法则依赖大模型微调或生成式推理,计算成本较高,且缺乏清晰、可控的结构化推断机制。针对这一挑战,论文提出了 KLaR 框架,用于生物医学知识图谱中的链路预测与靶点发现。

KLaR 的核心思想是围绕同一局部机制子图,同时构建结构视图与文本视图,并通过对齐与融合实现知识图谱与语言模型的协同推理。具体而言,该方法首先利用关系图神经网络对查询实体的局部 k-hop 邻域进行建模,再将同一局部子图中的随机游走路径转写为机制一致的文本上下文,并使用冻结的预训练句向量模型进行编码;最后通过门控融合模块与稀疏混合专家解码器(MoE)完成关系预测。与依赖大规模生成式推理的方法不同,KLaR 将任务相关推理集中在轻量化融合模块和解码模块中,在提高推理效率的同时增强了模型的可控性与可解释性。
实验结果表明,KLaR 在 PharmKG、HetioNet 和 DTINet 三个异构生物医学知识图谱数据集上均取得了稳定且领先的表现。其中,在 PharmKG 上 MRR 达到 0.182,在 HetioNet 上 MRR 达到 0.146,在 DTINet 上 MRR 达到 0.254,并在 DTINet 上取得 0.621 的 Hits@10。整体上,KLaR 持续优于多种结构化知识图谱方法、图神经网络方法以及知识图谱—语言模型混合基线,展现出良好的泛化能力和跨场景适用性。
进一步的消融实验显示,去除混合专家解码器、移除结构分支、移除文本分支,或关闭结构—文本对齐模块,都会导致模型性能下降。这表明,机制一致的图文融合与关系专门化的专家解码是 KLaR 获得性能优势的关键所在。
除标准评测指标外,KLaR 还展现出较强的生物学发现潜力。论文中的案例分析表明,模型能够识别出原始知识图谱中缺失、但具有生物学合理性的潜在关联,例如 PCOS 与 TSFM 之间可能存在的线粒体机制联系,以及 NAFLD 与 PPARG、ADIPOQ、Pioglitazone 之间的重要潜在关联。这说明,KLaR 不仅能够提升知识图谱推理性能,也能够为疾病机制分析、靶点发现和药物再利用提供有价值的候选线索。
总体来看,KLaR 通过在统一框架下融合局部图结构与机制一致的文本语义,为生物医学知识图谱推理提供了一条高效、轻量、可控的新路径。此次成果被 ISMB 2026 接收并发表于 Bioinformatics,显示了我校与杭州深极科技有限公司在人工智能与生命健康交叉研究领域的持续创新能力,也为后续智能靶点发现和生物医学假设生成研究奠定了坚实基础。
研究相关
健康医疗大数据研究院2023级博士生江荧辉为论文第一作者,刘向荣教授为通讯作者。