Accurate structure prediction of biomolecular interactions with AlphaFold 3
Accurate structure prediction of biomolecular interactions with AlphaFold 3 - 中文验证版
英文原文卡片:alphafold3_2024.md
状态:已翻译。
元数据
- 阅读状态:已读毕
- 年份:2024
- 计算范式:搜索、仿真与科学计算 (
search_simulation_science_compute) - PDF:2024-alphafold3_2024.pdf
- 抽取文本:2024-alphafold3_2024.txt
- PDF URL:https://www.nature.com/articles/s41586-024-07487-w.pdf
- OpenAlex:
- 引用计数来源/日期:
- 引用计数:
- 阅读卡创建日期:2026-06-15
计算设置
本地抽取的论文文本未报告训练硬件、加速器型号、芯片数量、墙钟时间或 FLOPs。因此 2024-alphafold3_2024 的设备行记为 未报告。根据项目规则,其设置从 2024 年 Google DeepMind/Isomorphic 的科研背景和本地加速器时代图谱推断为 TPU v5p/v4 级别的前沿科学计算基础设施。该推断不应作为论文主张引用。
论文确实报告了训练和推理的规模。每个优化器步使用 256 个输入数据样本的小批次。在初始训练期间,这变为 256 × 48 = 12,288 个扩散样本;在微调期间减至 256 × 32 = 8,192 个扩散样本。模型分三个阶段训练,裁剪尺寸分别为 384、640 和 768 个 token。标准推理从 5 个模型种子中各取 5 个扩散样本,共 25 个样本,选取置信度最高的。蛋白质-抗体评分作为特殊情况,在 1,000 个模型种子中进行排序。
瓶颈
瓶颈在于内存与采样双重约束下的统一生物分子结构预测。AlphaFold 3 必须在单一模型中表示蛋白质、核酸、小分子、离子、共价修饰和复合物。这对表示、MSA 处理、配体化学、立体化学和排序都构成压力。表示规模随 token 对数量增长,因此裁剪尺寸和最大 token 过滤器是核心计算控制手段。
扩散改变了成本结构。AF2 通过非生成式结构模块产生结构;AF3 则用扩散模块预测原始原子坐标。在训练时,每个优化器步生成数千个扩散样本。在推理时,随机噪声被循环去噪,并可能对多个种子/样本进行排序。因此,可以通过投入更多推理计算来提高准确率,尤其是对于困难的界面,但这形成了一个真实的成本旋钮。
方法适配
架构经过适配,减少了特定分子的专用机制,以适应广泛的生物分子输入。AF3 用 Pairformer 替换了 AF2 的 Evoformer。论文指出 MSA 处理被大幅弱化:一个更小、更简单的 MSA 嵌入块使用廉价的成对加权平均,MSA 表示不再被保留,信息通过对表示和单表示流动。Pairformer 有 48 个块,在对表示形状 (n, n, c) 和单表示形状 (n, c) 上运行,其中 c=128 用于对表示,c=384 用于单表示。
扩散模块直接在原始原子坐标和粗粒度 token 表示上操作。论文明确指出它省略了全局旋转/平移等变性,避免了基于扭转角的参数化和违规损失,从而简化了模型以适应任意配体和化学图。这种简化以手工设计的分子约束换取学习到的去噪、置信度预测、排序惩罚和多样本采样。
该方法还适配了生成式失效模式。由于扩散可能在无序区域中幻觉出看似合理的结构,作者使用了来自 AlphaFold-Multimer v2.3 预测的交叉蒸馏,其中无序区域倾向于呈现为伸展的环状结构。置信度头预测 pLDDT、PAE 和预测距离误差矩阵。
证据
论文报告了广泛的基准测试证据。蛋白质-配体性能在 PoseBusters 上评估,使用 428 个 2021 年或之后发布至 PDB 的蛋白质-配体结构,以结合口袋对齐的配体 RMSD 低于 2 埃作为成功指标。为避免训练泄露,PoseBusters 分析使用了一个训练截止日期为 2019 年 9 月 30 日的独立 AF3 模型。论文报告 AF3 即使在没有结构输入的情况下也大幅优于 AutoDock Vina,Fisher 精确检验 P = 2.27e-13,并优于真正的盲对接方法如 RoseTTAFold All-Atom,P = 4.45e-25。
对于核酸,AF3 在相关近期 PDB 子集上预测蛋白质-核酸复合物和 RNA 结构的准确率高于 RoseTTAFold2NA,并评估了十个公开可用的 CASP15 RNA 目标。对于蛋白质,蛋白质-蛋白质预测成功率相比 AlphaFold-Multimer v2.3 有改善,P = 1.8e-18;抗体-蛋白质相互作用预测显示显著改善,P = 6.5e-5;蛋白质单体 LDDT 改善显著,P = 1.7e-34。
与计算相关的证据在于种子分析。标准结果对 25 个预测进行排序,但抗体-抗原复合物随着排序种子数增加到 1,000 而持续改善。论文指出每个模型种子使用一个扩散样本而非五个并不会显著改变抗体结果,这表明需要的是更多模型种子,而非仅仅是每个种子更多的扩散样本。
历史影响
AlphaFold 3 将 AlphaFold 式建模从蛋白质和蛋白质复合物扩展到统一的生物分子相互作用体系。从历史角度看,计算结构从“预测单个蛋白质折叠”转变为“生成、排序和验证跨化学类型的分子复合物”。Pairformer 和弱化的 MSA 处理展示了一种适配方向:保留使 AlphaFold 强大的成对表示,但移除那些无法干净地推广到配体、核酸和任意修饰的部分。
本卡也标志着扩散进入高风险的科学结构预测领域。采样和排序成为科学结果的一部分。对于困难目标,更多种子可以换取准确率,这使得 AF3 落入搜索/仿真/科学计算范式,尽管其核心模型是神经网络。
局限
这些局限部分是科学性的,部分源自计算条件。论文报告了手性违规,尽管有排序惩罚,PoseBusters 上仍有 4.4% 的手性违规率,以及偶尔的原子冲突,排序惩罚可以减少但无法消除。扩散引入了幻觉性无序;AF3 可能在应保持无序的区域中生成紧凑的看似合理的结构,即使置信度较低。与早期的结构预测器一样,它预测的是静态结构而非溶液系综,且多个随机种子并不能近似真实的生物分子动力学。
某些目标需要大量预测和排序才能获得最佳结果,这会带来额外的计算成本。论文还指出其未提供代码,AlphaFold 3 以受限的非商业服务器形式提供,因此独立的硬件和运行时验证受限于本地来源。
链接
- 计算范式:
history/compute_regimes/search_simulation_science_compute/README.md - 来源 PDF 和抽取文本见上方元数据。
- 队列状态:
read_complete。