当化学元素周期表遇上AI模型,会产生怎么样的反应?
近日,浙江大学杭州国际科创中心(以下简称浙大科创)“求是科创学者”(科创百人)张强博士团队科研成果《Molecular Contrastive Learning with Chemical Element Knowledge Graph》为我们带来了想象。
这一创新成果将化学元素周期表构建成知识图谱(Chemical Element Knowledge Graph),再融入到AI模型中,构建出一种利用化学元素知识图谱增强分子对比学习(KCL)的新型AI框架,未来可在生物分子研究、化合物合成研究等领域广泛应用,如化合物分子的毒性属性预测,等等。
目前,该成果从全球近万篇投稿中脱颖而出,被国际人工智能顶级会议AAAI2022接收,成果第一作者为方尹博士、张强博士,通讯作者为陈华钧教授。
↓↓↓
利用化学元素知识图谱进行分子对比学习
先来科普下什么是知识图谱,它旨在描述客观世界的概念、实体、事件及其之间的关系。在知识图谱里,我们通常用“实体(Entity)”来表达图里的节点、用“关系(Relation)”来表达图里的“边”。实体指的是现实世界中的事物,比如人、机构、化学元素、基因、蛋白等,关系则用来表达不同实体之间的某种联系,比如人-“居住在”-北京、张三和李四是“朋友”,等等。知识图谱在搜索引擎、智能问答、推荐计算、语言理解、大数据分析、设备物联等领域具有广泛应用。
而图对比学习通俗易懂地来说,则是一种针对图数据的自监督学习算法。对给定的大量无标注图数据,图对比学习算法无需设计复杂的预训练任务,旨在训练出一个图编码器,由这个图编码器编码得到的图表示向量,就能很好地保留图数据的特性。
近年来,分子图表示学习逐渐被应用于生物、化学、药物等多个下游任务,例如分子属性预测和药物设计等,前景无限。但以往的研究没有将领域科学知识纳入分子图表示学习中,忽略了分子图中蕴含的领域知识及原子间的微观联系。
化学元素知识图谱建立了未通过化学键相连
但化学性质有所关联的原子之间的联系
针对这一问题,张强博士在浙江大学计算机科学与技术学院陈华钧教授指导下,带领团队成员,积极开展交叉领域研究,将AI模型与化学元素周期表进行有机结合,构建了化学元素知识图谱(Chemical Element Knowledge Graph),描述元素之间的微观联系及各元素有关的领域科学知识,并提出了一种知识增强的新型分子图对比学习框架(Knowledge-enhanced Contrastive Learning, 简称KCL)。
KCL框架图
这种新的分子图对比学习框架主要包含三个模块:融入知识的图增强模块、知识感知的图表示模块、对比学习目标模块。融入知识的图增强模块对原有的基于化学元素知识图谱(Knowledge Graph, KG)的分子图进行扩充。知识感知的图表示模块对原始分子图使用通用图编码器提取分子表示,并使用知识感知消息传递神经网络(Knowledge-aware Message Passing Neural Network, KMPNN)对增强分子图中的复杂信息进行编码。对比学习目标模块通过最大化正样本对之间的一致性和难负样本对(Hard negative pairs)之间的差异性构建对比损失函数,从而优化整个模型。
该团队还通过在多个真实场景中的大量可视化实验,解释了KCL从增广分子图中原子和属性中学到的内容,从而证明KCL在8个分子数据集上取得了优于先进基线的性能。
在科创,感受无限交叉可能
张强博士是求是科创学者(科创百人),博士毕业于英国伦敦大学学院(University College London)的他,研究主要涉及到机器学习、数据挖掘、自然语言处理和生物分子智造等领域,曾参加多项英国政府EPSRC和Google等企业资助的重要研究项目,在NeurIPS、ICML、AAAI、WWW、TOIS等人工智能顶级学术会议和SCI期刊发表多篇高质量论文。
拥有丰富的学术研究和工业项目经历,年轻的张强回国时就曾受到多家互联网头部机构的青睐,但他最终选择了浙大科创。
“因为在这里看到了更多可能,我非常期待用AI的手段去赋能科学发现与探索(AI for Science),同时也希望看到科研范式的转变倒过来助推AI的发展(Science for AI),这将是一件非常有创造性和有价值的事情。”像张强工作的浙大科创生物与分子智造研究院,就是在用高通量的技术推动生物与分子智造方面的研究,需要大量AI方面的知识。
张强说,之前从来没想过,擅长计算机知识的自己竟然会和生物、化学等学科有着密不可分的联系。来到浙大科创的每一天,他都在遇到不同领域的青年才俊,有时候可能闲聊一下,就是一个新的idea,“像我们这次的成果就综合运用了计算机、化学、生物等多学科知识,通过构建科学知识图谱与AI模型的交叉研究,能帮忙我们更好地预测分子的属性,在生物医学领域具有广泛的应用场景。”
更开放、更交叉,张强希望在浙大科创开展科研攻关的同时,遇到更多志同道合的伙伴,并肩作战、通力合作,一起为科技创新贡献青春力量!