模拟 5 亿年自然进化史，全新生命科学大模型 ESM3 诞生！前 Meta 老将力作 LeCun 转赞

新智元 2024/6/26 19:21:08 责编：问舟

评论：

能抗衡 AlphaFold 3 的生命科学大模型终于出现了。初创公司 Evolutionary Scale AI 发布了他们最新的 98B 参数蛋白质语言模型 ESM3。不仅支持序列、结构、功能的 all-to-all 推理，团队还在实验中发现，它设计的新蛋白质相当于模拟自然界 5 亿年的进化。

继 AlphaFold 3 更新后，我们又看到了一个生命科学领域的大模型 ESM3。

模型开发团队来自于名为 Evolutionary Scale AI 的初创公司，团队负责人 Alex Rives 在推特上官宣了模型发布的消息。

模拟 5 亿年自然进化史，全新生命科学大模型 ESM3 诞生！前 Meta 老将力作 LeCun 转赞

这个令人振奋的消息也得到了 Yann LeCun 的转发，他表示，你们这个公司有点「闷声发大财」的意思。

模拟 5 亿年自然进化史，全新生命科学大模型 ESM3 诞生！前 Meta 老将力作 LeCun 转赞

相比 AlphaFold 系列，ESM3 有什么竞争优势？

首先就是 Meta 团队轻车熟路的 —— 开源。

模拟 5 亿年自然进化史，全新生命科学大模型 ESM3 诞生！前 Meta 老将力作 LeCun 转赞

虽然模型 API 仍处于内测阶段，需要申请试用资格，但模型代码已经放到了 GitHub 上。而且公司还会与 AWS 和英伟达云计算平台合作，方便开发者使用和部署。

模拟 5 亿年自然进化史，全新生命科学大模型 ESM3 诞生！前 Meta 老将力作 LeCun 转赞

仓库地址：https://github.com/ evolutionaryscale / esm

但比较遗憾的是，目前在 HuggingFace 仓库中还没有公开模型权重。英伟达官方博客显示，ESM3 将在 Nvidia BieNeMo 平台提供一个小型开源版本的代码和权重，但仅限于非商业用途。

模拟 5 亿年自然进化史，全新生命科学大模型 ESM3 诞生！前 Meta 老将力作 LeCun 转赞

仓库地址：https://huggingface.co/ EvolutionaryScale / esm3-sm-open-v1 / tree / main

此外，ESM3 与不同于模拟多种生物分子的 AlphaFold 3，只专注于蛋白质，但可以同时推理其序列、结构和功能，这种多模态能力属于领域首创。

更让人耳目一新的是，ESM3 在自然界中 27.8 亿个多样化蛋白质上进行训练，逐渐学习到了进化过程如何让蛋白质发生变化。

从这个角度来看，ESM 的推理过程可以被视为「进化模拟器」，这为当前的生命科学研究开辟了全新的视角。团队甚至在官网文章中提出了「模拟 5 亿年进化」的标语。

或许你已经注意到了，ESM 这个名字和 Meta 之前的蛋白质模型 ESMFold 非常类似。

这并不是有意擦边。事实上，Evolutionary Scale 这家初创公司就是 Meta-FAIR 蛋白质小组的前成员创办的，公司的首席科学家 Alex Rives 正是这个已解散团队的前负责人。

模拟 5 亿年自然进化史，全新生命科学大模型 ESM3 诞生！前 Meta 老将力作 LeCun 转赞

去年 8 月，在 Meta 的「效率年」中，扎克伯格选择解散了只有十几名科学家的蛋白质小组，让公司专注于更有盈利前景的研究。

模拟 5 亿年自然进化史，全新生命科学大模型 ESM3 诞生！前 Meta 老将力作 LeCun 转赞

但 Rives 并没有被 Meta 的这种举动吓倒，而是决定自立门户，他们目前已经筹集了 1.42 亿美元的种子资金。

那么就来仔细看看，这次的 ESM3 具体有哪些新内容？

模拟 5 亿年自然进化史，全新生命科学大模型 ESM3 诞生！前 Meta 老将力作 LeCun 转赞

ESM3：生物学的前沿语言模型

生命科学并不像我们想象的那般神秘莫测、不可捉摸。

蛋白质分子虽然有难以置信的多样性和动态变化，但是它的合成遵循严密的算法与流程。如果把它看成一门技术，其先进程度远远超过任何人类创造的工程。

生物学，就是一个厚厚的密码本。

只不过，这个密码本是用我们尚未理解的语言写就的，即使是当今最强超算上运行的工具也不过触及皮毛。

如果人类能够阅读，甚至是书写「生命代码」，就能使生物学变得可编程。试错法将被逻辑取代，费力的实验将被模拟所取代。

ESM3 就是朝这个宏伟愿景迈出的一步，是迄今为止首个能同时对蛋白质的序列、结构和功能进行推理的生成模型。

过去五年中 LLM 的突飞猛进，也让 ESM 团队发现了 Scaling Law 的威力，他们发现，同样的模式也适用于生物学。

随着训练数据以及参数规模的扩大，模型会加深对生物学基本原理的理解，并能更好地预测、设计生物结构和功能。

因此，ESM3 的开发思路也与 Scaling Law 一脉相承，其规模比上一代 ESM 大大扩展，数据量提高了 60 倍，训练计算量提高了 25 倍，并且是具有原生多模态的生成模型。

ESM3 的训练过程囊括了地球自然环境的多样性 —— 数十亿种蛋白质，从亚马逊雨林到海洋深处，小到土壤中的微生物，极端到深海热泉。

HuggingFace 上的模型卡显示，训练集中天然蛋白质数量达到 27.8 亿，并通过合成数据增强到 31.5 亿个序列、2.36 个结构以及 5.39 亿个带有功能注释的蛋白质，token 总数达到 7710B。

模型训练参数总量达到 98B，使用了超过 10²⁴FLOPS 的算力。团队似乎与英伟达紧密合作，训练使用了 Andromeda 集群，是当今吞吐量最高的 GPU 集群之一，部署了最先进的 H100 GPU 和 Quantum-2 InfiniBand 网络。

模拟 5 亿年自然进化史，全新生命科学大模型 ESM3 诞生！前 Meta 老将力作 LeCun 转赞

网页来源：https://andromeda.ai/

他们表示「相信 ESM3 的计算总量是有史以来生物模型之最」。

推理蛋白质的序列、结构和功能

处理文本的语言模型一般以 token 作为基本单位，但多模态的蛋白质模型更加复杂，需要将序列、三维结构和功能都转换为离散的字母进行表示。

为了更好地扩展训练规模、释放模型的「涌现」生成潜力，ESM3 使用的词汇在同一语言模型中能够很好地连接序列、结构和功能，进行联合推理。

不同于 GPT 等语言模型，ESM3 的训练目标继承于掩码语言模型（masked language modeling objective）。

每个蛋白质的序列、结构、和功能的部分位置会被掩码，模型在训练过程中需要逐渐理解三者之间的深层联系，从而预测掩码位置。如果遮蔽所有位置的标记，就相当于执行生成任务。

模拟 5 亿年自然进化史，全新生命科学大模型 ESM3 诞生！前 Meta 老将力作 LeCun 转赞

由于在蛋白质的序列、结构和功能上联合训练，对这三种模态可以任意进行掩码和预测，因此 ESM3 实现了「全对全」预测或生成（all to all）。

也就是说，模型的输入可以是部分或完全指定的三种模态的任意组合。这种强大的多模态推理能力有很强的应用价值，科学家们能以前所未有的灵活度和控制度设计全新的蛋白质。

比如，可以提示模型结合结构、序列和功能，提出 PET 酶活性位点的潜在支架结构。PET 是一种常用的塑料，如果 PET 酶设计成功，就能用于高效分解塑料废物。

模拟 5 亿年自然进化史，全新生命科学大模型 ESM3 诞生！前 Meta 老将力作 LeCun 转赞

ESM3 通过序列、结构和功能的多模态提示设计 PET 酶活性位点的支架

Evolutionary Scale 的联合创始人兼兼工程副总裁 Tom Sercu 表示，在内部测试中，ESM 在应对各种复杂提示时表现出了令人印象深刻的创造力。

「它能够解决一个极其困难的蛋白质设计问题，创造一种新型绿色荧光蛋白。ESM3 能够帮助科学家加速工作，开辟新的可能性 —— 我们期待看到它在未来对生命科学研究的贡献。」

当数十亿个蛋白质来自进化时间轴上的不同位置，具有丰富的多样性时，模型还能学到模拟进化的能力。

能力随规模涌现

正如 LLM 在规模扩展中「涌现」出了语言理解、推理等能力，在解决有挑战性的蛋白质设计任务时，ESM3 也随规模增加逐渐显现能力，其中一个重要的能力就是原子级协调。

比如，提示中可能指定组成蛋白质的两个氨基酸需要在序列位置上相近，但在结构中相距较远。这衡量了模型在结构生成任务中达到原子级精度的能力。

这对于设计功能性蛋白质至关重要，而 ESM3 解决这类复杂生成任务的能力可以随着规模增加逐渐提高。

不仅如此，在训练完成后，ESM3 的能力还有进一步提升的空间，其机制类似于 LLM 常用的 RLHF 方法。

但区别在于，ESM3 并不是从人类那里接受反馈，而是可以评估自身的生成质量，进行自我改进，也可以结合已有的实验数据和湿实验结果，让 ESM3 的生成与生物学结果保持对齐。

模拟 5 亿年自然进化史，全新生命科学大模型 ESM3 诞生！前 Meta 老将力作 LeCun 转赞

模型生成能力随规模增长，且微调的提升效果明显

模拟 5 亿年的进化

在发表的论文中，ESM3 团队详细介绍了他们在模型上观察到的「模拟进化」功能。

模拟 5 亿年自然进化史，全新生命科学大模型 ESM3 诞生！前 Meta 老将力作 LeCun 转赞

论文地址：https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/ research / esm3.pdf

绿色荧光蛋白（Green Fluorescent Protein，GFP）及其荧光蛋白家族是自然界中最美丽的蛋白质之一，但它们只存在于「生命之树」的几个分支中。

但 GFP 不仅仅是美丽而已，它包含一种荧光发色团（fluorescent chromophore）。这种分子可以吸收短波长的单色光子、捕获部分能量，再释放出波长较长的另一种单色光子。比如，自然界存在的 GFP 可以吸收蓝光并发出绿光。

模拟 5 亿年自然进化史，全新生命科学大模型 ESM3 诞生！前 Meta 老将力作 LeCun 转赞

由于这种特性，GFP 能够作为标记，帮助科学家在细胞内观察蛋白质，成为了生物学中最广泛使用的工具之一，GFP 的发现也因此获得了诺贝尔奖。

GFP 的功能如此独特且有用，结构也是非常罕见：由十一条链组成的桶状结构，中间穿过一条螺旋。折叠后进行自发反应，在蛋白质中心的分子会重新排列，产生荧光发色团。

这种机制是独一无二的。没有其他已知的蛋白质能够自发地从其自身结构中形成荧光发色团，这表明即使在自然界中，产生荧光也是相当罕见且困难的。

为了能在实验室有更广泛的应用，科学家们尝试添加突变或改变颜色，进行人工合成。最新的机器学习技术能够搜索到序列差异高达 20% 的变体，但功能性 GFP 的主要来源依旧是自然界而非蛋白质工程。

想在自然界中找到更多的变体也并不简单，因为新荧光蛋白的进化需要漫长的时间 ——GFP 所属家族的历史相当久远，它们从祖先序列中分化出来的时间点能追溯到数亿年前。

这个棘手的问题或许能在 ESM3 这里得到解决。

将天然 GFP 核心结构中几个位点的信息作为提示，并使用 CoT 技巧，ESM3 成功生成了新型 GFP 的候选者。

这种生成绝不可能是随机撞大运或者是全局搜索，因为可能的序列和结构的组合起来会达到天文数字 ——20²²⁹ x 4096²²⁹ ，比可见宇宙中所有的原子数加起来还要多。

在首次实验中，团队测试了 ESM3 生成的 96 个候选蛋白，其中出现了成功的发光样本，而且存在一种十分独特的结构，与自然界中任何蛋白质都相差甚远。

在另一组 96 个候选样本中，发现了几种亮度与天然 GFP 相似的蛋白质，其中一种亮度最高的蛋白质被命名为 esmGFP，与最接近的天然荧光蛋白相比有 96 个突变（在 229 个氨基酸组成的序列中，有 58% 的相似部分）。

模拟 5 亿年自然进化史，全新生命科学大模型 ESM3 诞生！前 Meta 老将力作 LeCun 转赞

左侧是与所有已知 GFP 都相差较大的生成物 B8，从 B8 开始，ESM3 生成了右图的 esmGFP

与自然进化不同，蛋白质语言模型并不在进化约束内明确工作。

但为了让 ESM3 解决其预测下一个掩码 token 的训练任务，模型必须学习进化如何在潜在蛋白质空间中演变。

从这个意义上说，ESM3 生成与天然蛋白十分相似的 esmGFP 的过程，可以被视为一种进化模拟器。

对 esmGFP 进行传统的进化分析是自相矛盾的，因为它是在自然过程之外创造的，但仍可以从进化生物学的工具中获得洞见，了解一个蛋白质通过自然进化与其最近的序列邻居分化所需的时间。

因此，研究团队使用进化生物学的方法，把 esmGFP 当成自然界新发现的蛋白质进行分析。他们估计，esmGFP 等效于进化模拟器执行的超过 5 亿年的自然进化。

模拟 5 亿年自然进化史，全新生命科学大模型 ESM3 诞生！前 Meta 老将力作 LeCun 转赞

esmGFP 的渲染图

开放模型

自成立以来，ESM 项目（ESM project）一直致力于通过发布代码和模型来实现开放科学。目前仍能在 GitHub 和 HuggingFace 上找到团队在几年前发布的代码和模型权重。

模拟 5 亿年自然进化史，全新生命科学大模型 ESM3 诞生！前 Meta 老将力作 LeCun 转赞

仓库地址：https://huggingface.co/ facebook / esm2_t36_3B_UR50D / tree / main

看到 ESM 模型在研究和工业领域的创造性和有影响力的应用，可谓是令人惊叹：

- Hie 等人使用 ESM-1v 和 ESM-1b 来进化抗体，改善了结合亲和力、热稳定性和病毒中和等治疗相关特性。
- BioNTech 和 InstaDeep 微调了一个 ESM 语言模型，用于检测 COVID 刺突蛋白中的变异，成功地在 WHO 指定之前标记了所有 16 种关注变异。
- Brandes 等人使用 ESM-1b 来预测突变的临床效果，目前这仍是完成该重要任务的最强方法。
- Marsiglia 等人使用 ESM-1v 来设计新的抗 CRISPR 蛋白变体，这些变体在保持目标编辑功能的同时，减少了对非目标副作用。
- Shanker 等人使用 ESM-IF1 引导多样蛋白的进化，包括实验室验证的对 SARS-CoV-2 高效抗体。
- Yu 等人微调了 ESM-1b 来预测酶的功能，包括稀有和研究不足的酶，并通过实验验证了预测结果。
- Rosen 等人使用 ESM2 嵌入来构建单细胞基础模型中的基因表示。
- Høie 等人微调了 ESM-IF1 在抗体结构上的表现，在 CDR 区域的序列恢复中达到了最先进的性能，设计出了高结合亲和力的抗体。

而这些，只是建立在 ESM 平台上的惊人工作的一小部分！

如今，团队正式宣布，将发布一个 ESM3 1.4B 参数版本的权重和代码，以便科学家和开发人员能够基于 ESM3 的理念和架构进行构建。

参考资料：

https://blogs.nvidia.com/blog/evolutionaryscale-esm3-generative-ai-nim-bionemo-h100/
https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
https://www.evolutionaryscale.ai/blog/esm3-release

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

下载IT之家APP，签到赚金币兑豪礼

关键词：蛋白质，序列模式

模拟 5 亿年自然进化史，全新生命科学大模型 ESM3 诞生！前 Meta 老将力作 LeCun 转赞

ESM3：生物学的前沿语言模型

推理蛋白质的序列、结构和功能

能力随规模涌现

模拟 5 亿年的进化

开放模型

相关文章