近日,厦门大学健康医疗大数据研究院林琛团队联合微软亚洲研究院、佐治亚理工学院在JCR1区期刊《中国科学:信息科学》(SCIENCE CHINA Information Sciences)发表题为From Intention to Implementation: Automating Biomedical Research via LLMs的研究论文,首次提出端到端生物医学研究自动化系统BioResearcher,通过大型语言模型(LLMs)驱动的多智能体架构,显著提升实验设计效率与可复现性,为AI驱动的科研范式革新提供新方案。
研究背景
传统生物医学研究面临文献爆炸式增长、跨学科技能需求高、实验设计逻辑复杂等挑战,而现有AI技术多聚焦于单一任务(如文献分析、代码生成),缺乏全流程自动化能力。针对此等问题与挑战,研究团队开发了首个覆盖数据检索、文献处理、实验设计、代码生成全链路的生物医学研究自动化系统BioResearcher,专注于干实验的自动化设计与实现。该系统采用大型语言模型(LLMs)驱动的多智能体协作架构解决跨学科挑战,通过层次化学习方法分解生物医学文献的复杂逻辑结构,实现高效可复现的实验方案自动化设计。
核心创新
图1. BioResearcher 系统架构
1. 模块化多智能体架构
BioResearcher包含文献及数据检索、文献处理、实验设计与编程四大模块,通过专业化智能体分工协作:
检索模块:基于LLM生成布尔查询,精准检索PubMed、GEO等数据库的文献与数据集。
文献处理模块:将论文标准化为结构化实验报告,结合链式推理思想(Chain of Thought)分析可参考内容,减少冗余信息干扰。
实验设计模块:采用层次化学习与检索增强生成(RAG)技术,逐步生成实验方案框架、大纲与细节。
编程模块:通过Docker环境迭代生成可执行代码,执行成功率最高达87.5%,多数错误仅需微调即可修复。
评审模块:系统内置基于大语言模型的评审员智能体,能够对生成内容进行实时质量评估和优化。
2. 质量评估体系
研究团队提出了新的评估指标,包括实验方案的完整性、细节水平、正确性、逻辑合理性和结构性五个维度评估指标,以及两项针对端到端生成代码质量的自动化评估指标(执行成功率、错误等级),对自动化研究流程进行全面评价。
实验结果
端到端性能:在8项未发表的生物医学研究目标中,BioResearcher平均执行成功率达63.07%,其生成的实验方案在五项质量指标上的表现优于现有的典型大模型智能体基线框架,实验方案质量综合评分(4.292/5)显著优于ReAct(3.285)、Plan-and-Execute(3.314)等基线系统,平均提升22.0%。
错误分析:在与上述同样8项研究目标中,BioResearcher生成代码中67.19%为路径缺失等轻微错误,仅5.46%错误需人工深度干预,验证了系统的高可靠性。
人工验证:三位领域专家评估显示,BioResearcher生成方案在正确性、细节水平和结构性三个评估维度上综合得分0.86/1,进一步证明BioResearcher系统的有效性;另外三位专家对LLM自动评审结果的认同一致性达0.86,其中三个为一致性评分超0.9,证实自动化评估的有效性。
应用价值
BioResearcher可将研究周期从传统人工的7-14周缩短至8.16小时,节省90%以上时间成本,显著减少研究人员的工作量。另外,BioResearcher生成的实验方案展现了良好的可重复性和可扩展性,其模块化设计可支持扩展至湿实验(如整合云端实验室)等多种研究场景以及其他科学领域,未来有望推动多学科研究的自动化进程。
作者信息
厦门大学信息学院硕士研究生罗懿,厦门大学健康医疗大数据研究院博士研究生史凌航,厦门大学健康医疗大数据研究院硕士研究生李怡豪,厦门大学医学院博士研究生庄奥博,微软亚洲研究院首席研究经理宫叶云,佐治亚理工学院教授Ling Liu,厦门大学健康医疗大数据研究院教授林琛
代码与数据已开源:
GitHub仓库:https://github.com/XMUDM/BioResearcher
论文原文:http://engine.scichina.com/doi/10.1007/s11432-024-4485-0