浙大科创团队在Nature机器智能子刊发表“提示学习+知识增强”双驱动的分子预训练模型

发布者:吴健发布时间:2023-06-08浏览次数:10

  你知道吗?除了人类世界拥有自然语言,科学世界也有一系列“语言”,比如,生物学领域中的蛋白质语言和化学领域中的分子语言,这些语言是科学家使用特定的术语和符号来描述特定科学研究对象的重要工具。

    近日,浙江大学杭州国际科创中心(简称科创中心)陈华钧教授和张强研究员团队瞄准化学界的“语言”,开发出基于功能提示的知识增强分子预训练模型,团队首次提出将提示学习与知识图谱相互结合用于分子预训练模型,有效提升分子属性预测结果准确度,并保证一定程度的可解释性。

   目前,相关研究以Knowledge graph-enhanced molecular contrastive learning with functional prompt为题发表在Nature Machine Intelligence上。该期刊是Nature首个AI领域子刊,在“计算机科学,人工智能”等类别的百余个期刊中排名第一。

图1 论文网页截图

论文的第一作者为浙江大学计算机科学与技术学院方尹博士,通讯作者为计算机学院陈华钧教授、科创中心张强研究员和药学院范骁辉教授。

https://www.nature.com/articles/s42256-023-00654-0



1.化学元素-官能团知识图谱解锁增强分子预训练方法

         什么是知识图谱?(点击了解)知识图谱旨在描述客观世界的概念、实体、事件及其之间的关系。在知识图谱里,通常用“实体(Entity)”来表达图里的节点、用“关系(Relation)”来表达图里的“边”。为实现化学元素信息的语义化和结构化表示,提供AI模型更广泛的知识关联和推理能力,团队将化学元素、官能团及其相关属性、特性等信息以知识图谱的节点和“边”的形式连接起来,构建了首个化学元素-官能团知识图谱(ElementKG,使得元素之间的相互关系和规律可以更加清晰地呈现。

图2 化学元素-官能团知识图谱示例

    基于所构建的ElementKG,团队提出了一种基于功能提示的知识图谱增强分子预训练方法。在预训练阶段,给定分子中存在的元素和官能团类型,从ElementKG中检索它们相应的实体和关系,创建一个增强的分子图,该分子图集成了基本的领域知识,并捕获了共享相同元素类型的原子之间的基本关联,即使它们没有直接通过化学键连接,该方法用于创建对比学习正样本对,经过预训练得到分子的向量表示。这种方法保留了拓扑结构,同时结合了重要的化学语义

图3 基于功能提示的知识增强分子预训练方法

    在预训练之后,为了弥合预训练对比任务和下游任务之间的差距,研究团队提出使用官能团知识作为提示来刺激预训练的图编码器,并从ElementKG的官能团知识中生成功能提示。首先,检测输入分子中的所有官能团,检索其在ElementKG中的相应实体嵌入,并构建具有可学习的中介变量,以捕获每个官能团的重要性。然后,将自注意力机制应用于中介变量和官能团实体的嵌入,以全面聚合其语义并获得功能提示。该方法有效提升了分子属性预测结果的准确度,同时保证了一定程度的可解释性。

2.精准破题让分子的自我监督学习更有效

    在深度学习和大数据的支撑下,大型语言模型技术也正在驱动着AI科学研究的高速发展。那么,化学元素、官能团和知识图谱的碰撞,能擦出何种科技创新的火花?

    张强介绍说,借助AI和分子特性预测模型,可以评估候选药物的临床试验成功率和治疗潜力,从而大大加快药物开发速度,并避免昂贵的后期失败的可能性。此外,他也指出,当前大多于分子的自我监督学习方法都是由数据驱动,同时,多数方法仅考虑原子之间通过化学键建立的联系,没有充分探索分子图中原子的潜在关系,这意味着预训练任务与下游任务有很大不同,直接将预训练表示应用于下游任务可能会导致性能不佳,而本项研发正好可以在一定程度上解决这个难题。

图4 研究团队

    未来,该项知识图谱与化学语言相结合的技术还有望用于绿色化工、新材料等领域,辅助化学工程师们在材料设计、反应过程优化和废物处理方面进行预测和提升,实现节能减排、环境友好的绿色化工生产新模式

    眼下,基于语言模型和知识图谱相融合的AI新模型,为生命蛋白质语言和化学分子语言的科学发现提供了巨大的潜力。未来,团队将继续深耕语言与知识双驱动的AI科学发现,通过大规模的语言数据和知识图谱训练,学习丰富的语义表示和知识关联,并应用于属性分析、功能预测和设计生成等任务,推动更高效和更精确的科学研究。