猜测、尝试、纠错,再猜测、再尝试……过去150多年里,传统的化学研究范式深度依赖“试错法”,物质创制的周期长、成本高,难以实现高效、节能。
想象,化学合成不再需要化学家和化学工程师反复进行设计-合成-测试-分析循环,而是通过网页界面的简单交互完成,哪怕不会编程也能操作自动化实验平台、分析实验结果、完成化学合成开发。
近日,我院分子智造所莫一鸣研究员团队构建由大语言模型GPT-4驱动的反应开发框架(LLM-RDF),通过使用六个自主开发的智能体,可完成化学合成开发流程中的关键任务,在合成方法搜索、自动化设备代码生成、波谱分析、化学计量计算、分离条件优化和反应器设计等任务中都展现了极强的自主研究与决策能力,相关成果发表在Nature Communications。
给我们一堆乐高零件,可能“三下五除二”便能根据图纸拼好,因为各个小块之间的相互作用是确定且稳固的,它们总是以固定的结构互相卡住。
但是药物研发和工艺开发的设计空间巨大,实验验证通常耗费大量时间和成本,同时还需兼顾效率、成本、可持续性、安全性及杂质控制等复杂需求,这使得单纯使用算法或自动化手段难以有效应对。
因此,该研究团队开发了一个基于大语言模型(LLM)的反应开发框架(LLM-RDF),包含Literature Scouter、Experiment Designer、Hardware Executor、Spectrum Analyzer、Separation Instructor和Result Interpreter六个智能体,用于完成每个步骤中的核心任务。用户可以通过网页界面与LLM-RDF交互,使用自然语言描述任务,LLM-RDF提出建议或执行操作后,由化学家进行审查和决策直至完成任务。
图1:基于大语言模型的反应开发框架(LLM-RDF)
LLM-RDF的第一大亮点是它整合了从文献搜索、高通量反应筛选、反应动力学研究、反应条件优化和规模放大到产品纯化的所有关键任务,实现了对化学合成开发的全流程覆盖。
图2. LLM智能体驱动的反应条件优化
“可以完成整个化学合成流程,也可以根据需要选择步骤进行实验。”本文一作阮怡翔介绍并演示:团队对二元醇底物12s进行了反应条件优化,以最大化反应收率。通过网页界面以自然语言描述优化任务后,Experiment Designer和Hardware Executor智能体将信息转化为结构化数据,并传递至位于科创中心iChemFoundry分子智造平台内的自驱动优化平台,从而提出新反应条件、执行实验和分析结果,实时优化进展会显示在网页界面中供用户查看(图2a)。Result Interpreter在第26次实验后建议终止,其指出反应收率已接近理论最大值,且已充分探索了反应空间(图2d)。这表明Result Interpreter在优化过程中有效平衡了探索和利用,体现出了其决策的合理性。
除了覆盖化学合成开发全流程,对化学家和化学工程师来说,LLM-RDF支持网页交互是其另一特色亮点,“不用再担心代码忘了”!开发网页界面能让用户以自然语言操作自动化实验平台和分析实验结果,无需编程技能,显著降低了利用自动化设备和机器学习算法进行化学研究的技术门槛。