最新动态

探索蛋白质领域的类“GPT”大模型!浙大科创的这项研究颠覆你对传统生物实验的想象
来源:浙江大学杭州国际科创中心 发布时间:2023-03-28

    最近,GPT成了全网热词,作为生成式自然语言类人工智能产品,它能根据情境写稿子、做PPT、设计网站,甚至还能在模拟律师考试中取得前10%的好成绩。


    但是你知道吗?其实不光在自然语言领域,生命科学领域也正在兴起类似的GPT大模型技术。只不过,这里使用的语言,不是自然人类语言,而是描述蛋白质序列的语言


    蛋白质,作为生命体的基本沟通语言,具有调节代谢过程、免疫防御和存储运输等重要作用,因此在生命医药、工业催化、新材料等领域广泛应用。


    近日,浙江大学杭州国际科创中心的张强研究员和其所在的AI交叉中心研究团队开发了一种针对蛋白质语言的预训练大模型,该模型的相关研究已经以《Multi-level Protein Structure Pre-training with Prompt Learning》为题发表在2023年ICLR国际机器学习表征会议上。据悉,ICLR会议是深度学习领域最  顶尖的会议之一,由两位图灵奖得主Yoshua Bengio和Yann LeCun领衔创办。同时,ICLR在谷歌最新排名位居深度学习与人工智能顶会的首位,在过去5年的顶级论文引用量排序中,也名列前茅,仅次于《细胞》期刊。

蛋白质领域的“GPT”能够用来干啥?


    蛋白质预训练语言模型可以预测蛋白质序列的结构和功能,这对于理解蛋白质在生命过程中的作用非常重要。蛋白质是生命体系中非常重要的分子,它们参与到几乎所有的生命过程中,包括代谢、免疫、传导、细胞分化和信号传递等。


    蛋白质预训练语言模型可以从大量的蛋白质序列数据中学习到蛋白质的特征和规律,从而可以预测蛋白质的二级结构、三级结构、功能区域和相互作用等信息。这对于研究蛋白质的结构与功能、药物研发以及治疗疾病等方面具有重要意义


    研究人员表示,此次成果是一个已经完成训练的模型,你可以把它看成是一个产品,虽然还在不断完善中,但是已经可以直接应用在实际研发过程。目前,科创中心生物与分子智造研究院已经在相关研究中运用到这项成果,并得到良好反馈。测试显示,该模型的确大大降低了研究的试错成本,提高了研发效率。


    不仅如此,蛋白质预训练语言模型还可以应用于蛋白质工程领域,下一步,研究团队就计划通过预测蛋白质的结构和功能,设计出更加稳定和具有特定功能的蛋白质。让蛋白质领域的“GPT”产品自己学会做研发,这样聪明的“实验室伙伴”或将成为未来合成生物学研究不可或缺的部分,而这些应用具有重要的实际价值,也将为生命科学和医学领域的发展做出贡献。


蛋白质提示学习是什么呢?


    在类似于GPT的大模型训练过程中,提示学习是最核心的技术技巧之一。简单的说,提示学习是通过给出一些关键词、短语或者向量作为提示(prompt),来引导模型输出符合预期的内容。这种方式可以让类GPT大模型在处理特定领域的数据时更加准确和高效。


    在这项工作中,研究团队在国际上首次提出了面向蛋白质的提示学习机制,研究提出了PromptProtein模型,设计了三个预训练任务将蛋白质的第一、三、四级结构信息注入到模型中。为了灵活使用结构信息,受到自然语言处理中的提示技术的启发,研究人员提出了提示符引导下的预训练和微调框架。在蛋白质功能预测任务和蛋白质工程任务上的实验结果表明,成果提出的方法比传统模型具有更好的性能。


    研究团队认为,他们这项工作对相关领域研究的主要贡献,一是提出了一种基于提示符引导的多任务预训练和微调框架。该框架可以同时有效地学习多种知识,并在下游任务中灵活使用。二是提出了基于提示符修正的Transformer模块,可以更有效地注入多种知识。三是在蛋白质表示学习中,PromptProtein模型在预训练阶段注入了多级结构知识。在下游任务中,取得了最优的功能预测精度

正在开展的工作:利用蛋白质大模型驱动科学机器人

  

      实际上,这篇文章仅仅还只是团队正在开展工作的一个方面。“在AI交叉中心,我们更希望实现的是怎样利用蛋白质或分子语言大模型来驱动像iBioFoundry和iChemFoundry这样的科学实验机器人,将真实世界的传感器信号、蛋白质、人类语言相结合,建立语言和感知的链接,而这项研究工作为这个目标的实现提供了很好的算法基础”。

      关于人工智能的发展,张强老师也表示,它将给人类社会带来挑战的同时,也将产生更多新的机会和岗位。他们期待将自己的研究成果与研究院的iBioFoundry、iChemFoundry做更多结合,实现类GPT大模型驱动的智能化、自动化铸造工厂,并在成果产业化的过程中,为新药研发、生命健康领域做更多有价值的探索和支撑。


新闻+

论文题目:Multi-level Protein Structure Pre-training with Prompt Learning

论文作者:王泽元,浙江大学计算机科学与技术学院博士研究生;研究方向:蛋白质表示学习、预训练模型

指导老师:张强,浙江大学杭州国际科创中心百人计划研究员;陈华钧,浙江大学计算机科学与技术学院教授

接收会议:ICLR2023

论文链接:

https://openreview.net/forum?id=XGagtiJ8XC