Highly accurate protein structure prediction with AlphaFold

下载 PDF

Highly accurate protein structure prediction with AlphaFold - 中文验证版

英文原文卡片:alphafold2_2021.md

状态:已翻译。

元数据

  • 阅读状态:read complete
  • 年份:2021
  • 计算范式:搜索、仿真与科学计算 (search_simulation_science_compute)
  • PDF:2021-alphafold2_2021.pdf
  • 抽取文本:2021-alphafold2_2021.txt
  • OpenAlex:
  • 引用计数来源/日期:
  • 引用计数:
  • 阅读卡创建日期:2026-06-15

计算设置

论文明确报告了训练和推理的硬件。训练使用 TPU v3,每个 TPU 核心 batch size 为 1,共 128 个 TPU v3 核心。训练样本随机裁剪至 256 个残基,并以 128 的 batch size 组装。模型在约 1000 万个样本上训练至收敛,随后用更长的 384 残基裁剪、更大的 MSA 堆栈以及降低的学习率进行精调。初始训练阶段耗时约一周,精调额外需要约四天。

推理时间以 NVIDIA V100 GPU 上的单模型报告。在 CASP14 配置和集成下,代表性神经网络时间为:256 残基 4.8 分钟,384 残基 9.2 分钟,2500 残基 18 小时。不采用集成的情况下,推理约快 8 倍:256 残基 0.6 分钟,384 残基 1.1 分钟,2500 残基 2.1 小时。16 GB 的 V100 在不用集成时可处理约 1300 残基以下的蛋白质;内存大致与残基数成二次关系,因此 2500 残基使用统一内存,一张 V100 负责计算但请求四张 GPU 用于内存。MSA 搜索和最终弛豫会增加 CPU 时间,但不消耗 GPU 或 TPU。

瓶颈

科学瓶颈是用足够准确而有用的预测替代缓慢的实验结构测定。计算瓶颈更为具体:AlphaFold2 必须组合序列数据库搜索、MSA 处理、成对残基表示、迭代循环(recycling)和几何感知的结构预测。pair 表示的规模为 Nres × Nres,因此内存和计算大致随蛋白质长度呈二次增长。这正是 2500 残基推理可能需要数小时并占用统一内存、而 256 和 384 残基仅需数分钟的原因。

MSA 和模板搜索也是加速器之外的瓶颈。输入包括主序列、用 jackhmmer 和 HHBlits 等工具构建的 MSA 序列,以及可用的模板坐标。搜索流程针对高召回率调优,数据库包括 UniRef90、BFD、Uniclust30、MGnify 和 PDB/模板源。准备这些输入是 CPU 密集型和 IO 密集型工作,但论文将其与 GPU/TPU 神经网络推理分开处理。

Recycling 引入了一个受控的串行计算循环。网络的主干和结构模块在多次迭代中逐步精化结构假设。包括 recycling 阶段在内,论文描述了带有许多中间结构的轨迹。Recycling 提高了精度,但意味着一次推理并非单个前馈过程。

方法适配

AlphaFold2 通过将问题分解为 MSA、pair 和结构表示来适配该计算结构。Evoformer 在一个 Nseq × Nres 的 MSA 数组和一个 Nres × Nres 的 pair 数组上运行。它包含 MSA 列之间、MSA 行之间以及残基对边之间的通信机制,包括外积更新和三角式 pair 更新。这很昂贵,但与科学先验一致:共进化信号和残基间几何是折叠的核心。

结构模块使用不变点注意力(invariant point attention)更新残基框架并直接预测 3D 坐标。这避免了依赖对构象的单独搜索作为主要求解器。最终的 Amber 弛豫步骤会消除分散注意力的立体化学违规,但神经网络提供主要结构。置信度头如 pLDDT 和预测的 TM-score 同样是计算适配:它们让用户无需运行新的实验即可判断是否信任一次预测。

训练使用多个数据源和辅助损失:FAPE、距离图预测、掩码 MSA 重建、侧链损失,以及在精调期间的违规损失。它还使用自蒸馏,将数十万条 Uniclust 序列的预测转化为额外的训练信号。CASP14 推理使用五个训练好的模型和基于置信度的选择,而后续无集成推理据报告速度快 8 倍且精度损失很小。

证据

CASP14 是核心基准证据。在 87 个 CASP14 蛋白质结构域上,AlphaFold 报告了在 95% 残基覆盖率下 0.96 Å 的中位主链精度 r.m.s.d.95,而次优方法报告了 2.8 Å。全原子精度为 1.5 Å r.m.s.d.95,对比最佳替代方案的 3.5 Å。论文强调碳原子宽度约为 1.4 Å,使得中位主链误差在化学上有意义。

计算证据与长度相关。带集成的单模型 V100 推理在 256 残基时耗时 4.8 分钟,384 残基时 9.2 分钟,但 2500 残基时需 18 小时。不采用集成时,这些分别变为 0.6 分钟、1.1 分钟和 2.1 小时。同一节还解释了内存悬崖:16 GB V100 在无集成时可处理约 1300 残基,而 2500 残基需要统一内存和额外请求的 GPU 以提供内存容量。

消融实验支持架构选择。移除 BFD 使 CASP14 平均精度降低 0.4 GDT,移除 MGnify 降低 0.7 GDT,同时移除两者降低 6.1 GDT,部分离群值损失超过 20 GDT。MSA 深度分析显示一个阈值:低于约 30 条有效序列时精度受损,而超过约 100 条序列后的收益较小。

历史影响

AlphaFold2 将加速器训练的神经结构预测转变为科学基础设施。它不仅提升了一个 ML 基准,还改变了获取高质量蛋白质结构的实际成本曲线。一旦训练完成,许多预测可以在 GPU 分钟到 GPU 小时加上 CPU 数据库搜索的时间内完成,使蛋白质组规模的预测成为可能,而纯实验方法无法匹敌。

对于计算史而言,它是以搜索/仿真/科学工作负载迁移至神经架构的关键案例。AlphaFold2 使用大规模序列数据库、TPU 训练、成对注意力、recycling 和学习到的几何模块,将结构推理摊销进一个训练好的模型。

局限

该方法仍受内存和输入质量的约束。长蛋白质具有二次的 pair 表示成本,可能超出单 GPU 内存。浅层 MSA 会损害精度,虽然模板可能有所帮助,但系统严重依赖序列数据库和搜索管线。论文还指出了关于复合物、配体、离子、化学计量和动力学的局限:模型预测的是来自序列和同源信息的静态结构,而非完整的生物学语境。

所报告的训练硬件是清晰的,但完整的系统成本包括 CPU 数据库搜索、模板搜索、大型序列数据库的存储/IO、弛豫、集成选择以及自蒸馏数据生成。这些成本超出了 128 TPU v3 训练这一单一陈述的范围。

链接

  • 计算范式:../../../compute_regimes/search_simulation_science_compute/README.md
  • 源 PDF 和抽取文本已在上方元数据中列出。
  • 队列状态:read_complete