从突破、争议到诺奖:AlphaFold 3 的“开源”之路

IP归属:广东

2024 年 11 月 11 日,Google DeepMind 宣布开源 AlphaFold 3,但当 Google DeepMind 在今年 5 月在《自然》杂志上发布 AlphaFold 3 时,恐怕没有人能预料到,这个被称为"生命科学重大突破"的 AI 模型将在短短半年内经历如此跌宕起伏的命运。

图源:《自然》

今年 5 月,Google DeepMind 曾在《自然》杂志上刊登了一篇名为「Accurate structure prediction of biomolecular interactions with AlphaFold 3」(使用 AlphaFold 3 进行生物分子相互作用的准确结构预测)的论文。

在这篇论文中,Google DeepMind 介绍了最新的 AlphaFold 3 模型,该模型具有显著更新的基于扩散的架构,能够预测包括蛋白质、核酸、小分子、离子和修饰残基在内的复合物的联合结构。AlphaFold-3 的创新之处在于,它使用扩散来“渲染”分子结构。它从模糊的原子云开始,然后通过去噪逐渐将分子具体化。

AlphaFold 3 预测的感冒病毒刺突蛋白(蓝色)与抗体(青色)和单糖(黄色)相互作用时的结构,该结构与真实结构(灰色)完全吻合。动画展示了蛋白质与抗体的相互作用,然后是与糖的相互作用。推进我们对这些免疫系统过程的了解,有助于更好地理解冠状病毒,包括 COVID-19,从而提高改善治疗的可能性。

将 AlphaFold 3 与许多专用工具进行比较后发现,AlphaFold 3 也具备更高的准确性,其中与最先进的对接工具相比,蛋白质-配体相互作用的准确性大大提高;与核酸特异性预测工具相比,蛋白质-核酸相互作用的准确性更高;与 AlphaFold-Multimer v.2.3 相比,抗体-抗原预测的准确性显著提高。

总结下来就是,与现有预测方法相比,AlphaFold 3 至少可以提高 50% 的准确率,对于一些重要的相互作用类别,AlphaFold 3 的预测精度甚至可以提升一倍。

这些结果也表明,在一个统一的深度学习框架内,实现生物分子空间的高准确性建模成为了可能。

图源:X

Google 的首席执行官 Sundar Pichai 也在社交平台发文庆祝了这一突破性的成就,并表示目前已有超过 180 万研究人员在疫苗开发、癌症治疗等工作中使用了 AlphaFold 蛋白质预测。

图源:X

欧洲生命科学实验室 EMBL 的科学家 Jan Kosinski 也在第一时间使用了 AlphaFold 3,用他的话说就是太疯狂了。Jan Kosinski 在博士期间花了很大一部分时间用生物化学和计算对接来表征 MutH 或 MutL 的相互作用位点(结构是未知的),而 AlphaFold 3 在仅花了不到 30 分钟的情况下就得到了与 Jan Kosinski 完全一致的结果。

超千名科学家联名抗议

毫无疑问,AlphaFold 3 就是科学界的一记重磅炸弹,引起了整个学术界的轰动,但就在大家为之振奋、认为 AlphaFold 3 是 “变革性的” 和 “印象深刻的” 时候,有超过 650 名科学家签署了联名公开信(后续人数突破 1000 人),对 Google DeepMind 和刊登这篇论文的《自然》杂志提出了抗议。

图源:网络

图源:网络

究其原因,这就要说回到 AlphaFold 3 的上一个版本 —— AlphaFold 2 了,因为当 Google DeepMind 在 2020 年发布 AlphaFold 2 时,所有研究人员都可以访问完整的底层代码,但 AlphaFold3 则完全不同,Google DeepMind 只提供了对代码功能和工作原理的描述,没有公开其底层代码,研究人员也仅能通过官方提供的网络服务器访问这个模型,每天可以进行的预测次数也有限制,同时也不允许研究人员将 AlphaFold 3 用于商业,以及药物研发等目的。

在诸多限制条件下,Google DeepMind 与 AI 制药公司 Isomorphic Labs 之间的关系也同样引发了外界对 AlphaFold 3 的质疑。在限制外部人员将 AlphaFold 3 用于商业和药物研发的同时,Isomorphic Labs 反而是可以正常使用 AlphaFold 3,并且也能用于药物研发。

在科学家们看来,Google DeepMind 施加的这些限制实则是为了保护自己的商业利益,而非促进科学研究。

科学家们除了质疑 Google DeepMind,同样也将矛头指向了刊登论文的《自然》杂志,要知道在科学界,论文送审和同行评议是学术出版领域的重要质量控制机制。首先,这可以确保研究的科学性和严谨性,验证研究方法的合理性,以及检查数据的可靠性和结论的有效性;其次,可以确保研究过程可以被其他研究者重现,验证实验方法的完整性和清晰度;然后就是学术诚信,可以检查是否存在抄袭或剽窃,确认研究成果的原创性。

而从 AlphaFold 3 的这篇论文来看,《自然》杂志发表了不含完整代码的论文,自然也就违背了同行评议的重要原则 —— 可重复性验证。因为其他研究者无法验证 AlphaFold 3 所声称的性能指标,也无法复现研究结果。

瑞典斯德哥尔摩大学的生物物理学家 Erik Lindahl 表示(联名信的签署者之一),AlphaFold 3 的发布更像是一则商业广告,而不是符合科学研究要求的成果。

美国加州大学旧金山分校结构生物学家 James Fraser 则表示,这篇论文没有理由不提供代码,《自然》规定作者必须及时向读者提供代码,不得有不适当的限制,这似乎违反了《自然》杂志自 1869 年创刊以来,都一直秉持的政策。

图源:《自然》

面对批评,《自然》发布一篇「AlphaFold3 - 为什么《自然》在没有代码的情况下发表了它?」的声明,回应了研究人员和读者的批评,并解释了这一决策的背后原因。

他们指出,《自然》杂志的开放科学政策通常要求作者公开数据和代码,但也承认在某些情况下可以有限制。对于 AlphaFold 3,DeepMind 选择了限制代码的访问,尤其是在药物开发等商业应用上,限制的原因包括技术基础设施不足、商业机密、可能会对生物安全带来的潜在影响,以及由此带来的法律与伦理挑战。虽然《自然》杂志支持开放科学,但在私营部门主导的大多数全球研发活动中,公开数据和代码的过程需要更广泛的对话和合作。

图源:X

面对质疑,DeepMind 的研究副总裁 Pushmeet Kohli 在社交媒体平台 X 上发布消息称,团队正在“努力在六个月内发布 AlphaFold 3 的模型(包括权重)供学术研究使用”,这一举动也受到了学术界的欢迎,算是一定程度上打消了科学家们的质疑。

50 年难题的突破,AlphaFold 摘得诺贝尔化学奖

经过数月的沉寂,2024 年 10 月 9 日 AlphaFold 再次成为了聚光灯下的焦点,瑞典皇家科学院宣布将今年的诺贝尔化学奖授予 Google DeepMind 的 Demis Hassabis、John Jumper,以及华盛顿大学的 David Baker,以表彰他们在蛋白质结构预测和设计领域的开创性成就。

图源:诺贝尔化学奖

蛋白质被称为"生命的化学工具",其结构决定了它们在生物体内的功能。长期以来,科学家们需要耗费数年时间和昂贵的设备才能确定一个蛋白质的结构。而 DeepMind 团队开发的 AlphaFold 2 彻底改变了这一现状。

诺贝尔化学委员会主席 Heiner Linke 表示,以前确定一个蛋白质结构可能需要数年时间,而现在只需要几分钟。AlphaFold 2 已经能够预测几乎所有已知的 2 亿多个蛋白质结构,这一成果展示了人工智能在科学研究中的巨大潜力,Demis Hassabis 和 John Jumper 通过 AI 模型实现了一个 50 年的梦想。

在 AlphaFold 2 摘得诺贝尔化学奖后仅仅一个月,在 2024 年 11 月 11 日,Google DeepMind 兑现了半年前的承诺,宣布正式“开源” AlphaFold 3,按照当初刊登在《自然》上的论文所给出的结论, AlphaFold 3 将有望为生物科技领域带来新的机遇。

不算完全开源

我们在上周曾发布一篇标题为《开源 AI 模型终于有了明确定义,Llama、Stable Diffusion 都被踢出开源之列》的文章,在里面详细介绍了 OSI 所设立的开源 AI 定义 —— OSAID 1.0 版本。在定义中,OSI 规定真正的开源 AI 模型必须提供以下三个关键组成部分:

  1. 完整的源代码:必须提供用于训练和运行 AI 系统的完整源代码。这包括了训练过程中使用的所有程序代码,以及系统实际运行时需要的代码。这些代码必须采用 OSI 认可的开源许可证。

  2. 模型参数信息:需要提供模型的参数设置,包括权重和其他配置设置。这些技术细节对于理解和复现模型的行为至关重要。这些参数同样需要在 OSI 认可的条款下提供。

  3. 训练数据信息:这是最具争议性的部分,虽然不要求直接提供训练数据集本身,但必须提供"足够详细的数据信息",包括:

    • 数据的来源和出处

    • 数据的处理方法

    • 如何获取或许可这些数据

    • 确保具备相关技能的人能够使用相同或类似的数据重建出实质等效的系统

图源:《自然》

Google DeepMind 则是采用了一个平衡各方利益的 “开源” 策略,但按照 OSAID 1.0 的标准来看其实就不算开源模型了:

  • AlphaFold 3 的源代码在知识共享许可协议(CC 协议)下免费提供;

  • 关键的模型权重需要获得 Google 对学术用途的明确许可;

  • 不允许用于商业目的,特别是药物研发领域;

得以窥见模型细节

在开源 AlphaFold 3 的源代码后,截至发稿该项目已经在 GitHub 上获得了超过 4.4k Stars 数量,受关注的程度颇高。

图源:GitHub

随着 Google DeepMind 将其“开源”,我们也能更加深入了解其架构设计,以及性能和资源需求等方面的细节,而不是只停留于表面。

AlphaFold 3 采用了双阶段架构设计:数据管道阶段和模型推理阶段。这种设计允许用户根据实际需求灵活部署,既可以一体化运行,也可以分阶段执行。数据管道主要负责遗传序列搜索和模板搜索,这个阶段对 CPU 和内存资源要求较高;而模型推理阶段则需要强大的 GPU 算力支持。

在推荐配置方面,系统要求配备英伟达 A100(80GB)或 H100(80GB)其中之一,同时需要 64GB 以上的内存,尤其是在处理深度 MSA 序列时可能需要更大的内存空间。存储设备建议选用高速设备,最好能够采用基于 RAM 的文件系统以提升性能。

对于最低支持配置,系统可以在 V100(16GB)上运行,但仅限于处理 1280 tokens 以内的序列。如果使用 A100(40GB)版本,则需要特殊配置,在此配置下可以处理最大 4352 tokens 的输入。

图源:GitHub

从计算效率来看,单个 80GB A100 的配置在各种序列长度下都展现出优异的性能。相较于 16 个 40GB A100 的配置,其效率提升达到 2.2 倍至 5.7 倍不等,且序列越短,性能提升越明显。这一特点使其特别适合处理短序列的高通量场景。

结尾

AlphaFold 3 的故事远不止于技术创新,它实际上折射出了当代科技发展中的一个根本性矛盾:如何在商业利益与开放科学之间找到平衡点。从最初的争议到最终的"有限开源",我们看到了一个世界级 AI 实验室在这个问题上的探索与妥协。这种妥协方案虽然没有完全满足学术界的期待,但或许也为未来类似的突破性科研成果提供了一个可供参考的发布模式。

商业价值与学术价值并非总是对立的,通过谨慎的平衡与适度的开放,我们既可以保护创新者的合法权益,又能推动整个领域的进步。这种"有限开源"模式虽然不完美,但可能是当前阶段最务实的解决方案。

更深层次来看,AlphaFold 3 展现的不仅是 AI 在生物科技领域的突破,更预示着我们正在进入一个科研范式转变的关键节点。当 AI 能在 30 分钟内完成人类研究者需要数月乃至数年才能完成的工作时,我们不得不思考:未来的科研工作将会是什么样子?科学家的角色会发生怎样的转变?

随着 AlphaFold 2 拿下了 2024 年的诺贝尔化学奖,我也迫切地想要知道 AlphaFold 3、4、5…… 能否在未来再次斩获诺贝尔奖。

陀螺科技现已开放专栏入驻,详情请见入驻指南: https://www.tuoluo.cn/article/detail-27547.html

前方智能专栏: https://www.tuoluo.cn/columns/author1911845/

本文网址: https://www.tuoluo.cn/article/detail-10117707.html

免责声明:
1、本文版权归原作者所有,仅代表作者本人观点,不代表陀螺科技观点或立场。
2、如发现文章、图片等侵权行为,侵权责任将由作者本人承担。

相关文章