Highly accurate protein structure prediction with AlphaFold - 中文验证版

英文原文卡片：alphafold2_2021.md

状态：已翻译。

元数据

阅读状态：read complete
年份：2021
计算范式：搜索、仿真与科学计算 (search_simulation_science_compute)
PDF：2021-alphafold2_2021.pdf
抽取文本：2021-alphafold2_2021.txt
OpenAlex：
引用计数来源/日期：
引用计数：
阅读卡创建日期：2026-06-15

计算设置

论文明确报告了训练和推理的硬件。训练使用 TPU v3，每个 TPU 核心 batch size 为 1，共 128 个 TPU v3 核心。训练样本随机裁剪至 256 个残基，并以 128 的 batch size 组装。模型在约 1000 万个样本上训练至收敛，随后用更长的 384 残基裁剪、更大的 MSA 堆栈以及降低的学习率进行精调。初始训练阶段耗时约一周，精调额外需要约四天。

推理时间以 NVIDIA V100 GPU 上的单模型报告。在 CASP14 配置和集成下，代表性神经网络时间为：256 残基 4.8 分钟，384 残基 9.2 分钟，2500 残基 18 小时。不采用集成的情况下，推理约快 8 倍：256 残基 0.6 分钟，384 残基 1.1 分钟，2500 残基 2.1 小时。16 GB 的 V100 在不用集成时可处理约 1300 残基以下的蛋白质；内存大致与残基数成二次关系，因此 2500 残基使用统一内存，一张 V100 负责计算但请求四张 GPU 用于内存。MSA 搜索和最终弛豫会增加 CPU 时间，但不消耗 GPU 或 TPU。

瓶颈

科学瓶颈是用足够准确而有用的预测替代缓慢的实验结构测定。计算瓶颈更为具体：AlphaFold2 必须组合序列数据库搜索、MSA 处理、成对残基表示、迭代循环（recycling）和几何感知的结构预测。pair 表示的规模为 Nres × Nres，因此内存和计算大致随蛋白质长度呈二次增长。这正是 2500 残基推理可能需要数小时并占用统一内存、而 256 和 384 残基仅需数分钟的原因。

MSA 和模板搜索也是加速器之外的瓶颈。输入包括主序列、用 jackhmmer 和 HHBlits 等工具构建的 MSA 序列，以及可用的模板坐标。搜索流程针对高召回率调优，数据库包括 UniRef90、BFD、Uniclust30、MGnify 和 PDB/模板源。准备这些输入是 CPU 密集型和 IO 密集型工作，但论文将其与 GPU/TPU 神经网络推理分开处理。

Recycling 引入了一个受控的串行计算循环。网络的主干和结构模块在多次迭代中逐步精化结构假设。包括 recycling 阶段在内，论文描述了带有许多中间结构的轨迹。Recycling 提高了精度，但意味着一次推理并非单个前馈过程。

方法适配

AlphaFold2 通过将问题分解为 MSA、pair 和结构表示来适配该计算结构。Evoformer 在一个 Nseq × Nres 的 MSA 数组和一个 Nres × Nres 的 pair 数组上运行。它包含 MSA 列之间、MSA 行之间以及残基对边之间的通信机制，包括外积更新和三角式 pair 更新。这很昂贵，但与科学先验一致：共进化信号和残基间几何是折叠的核心。

结构模块使用不变点注意力（invariant point attention）更新残基框架并直接预测 3D 坐标。这避免了依赖对构象的单独搜索作为主要求解器。最终的 Amber 弛豫步骤会消除分散注意力的立体化学违规，但神经网络提供主要结构。置信度头如 pLDDT 和预测的 TM-score 同样是计算适配：它们让用户无需运行新的实验即可判断是否信任一次预测。

训练使用多个数据源和辅助损失：FAPE、距离图预测、掩码 MSA 重建、侧链损失，以及在精调期间的违规损失。它还使用自蒸馏，将数十万条 Uniclust 序列的预测转化为额外的训练信号。CASP14 推理使用五个训练好的模型和基于置信度的选择，而后续无集成推理据报告速度快 8 倍且精度损失很小。

证据

CASP14 是核心基准证据。在 87 个 CASP14 蛋白质结构域上，AlphaFold 报告了在 95% 残基覆盖率下 0.96 Å 的中位主链精度 r.m.s.d.95，而次优方法报告了 2.8 Å。全原子精度为 1.5 Å r.m.s.d.95，对比最佳替代方案的 3.5 Å。论文强调碳原子宽度约为 1.4 Å，使得中位主链误差在化学上有意义。

计算证据与长度相关。带集成的单模型 V100 推理在 256 残基时耗时 4.8 分钟，384 残基时 9.2 分钟，但 2500 残基时需 18 小时。不采用集成时，这些分别变为 0.6 分钟、1.1 分钟和 2.1 小时。同一节还解释了内存悬崖：16 GB V100 在无集成时可处理约 1300 残基，而 2500 残基需要统一内存和额外请求的 GPU 以提供内存容量。

消融实验支持架构选择。移除 BFD 使 CASP14 平均精度降低 0.4 GDT，移除 MGnify 降低 0.7 GDT，同时移除两者降低 6.1 GDT，部分离群值损失超过 20 GDT。MSA 深度分析显示一个阈值：低于约 30 条有效序列时精度受损，而超过约 100 条序列后的收益较小。

历史影响

AlphaFold2 将加速器训练的神经结构预测转变为科学基础设施。它不仅提升了一个 ML 基准，还改变了获取高质量蛋白质结构的实际成本曲线。一旦训练完成，许多预测可以在 GPU 分钟到 GPU 小时加上 CPU 数据库搜索的时间内完成，使蛋白质组规模的预测成为可能，而纯实验方法无法匹敌。

对于计算史而言，它是以搜索/仿真/科学工作负载迁移至神经架构的关键案例。AlphaFold2 使用大规模序列数据库、TPU 训练、成对注意力、recycling 和学习到的几何模块，将结构推理摊销进一个训练好的模型。

局限

该方法仍受内存和输入质量的约束。长蛋白质具有二次的 pair 表示成本，可能超出单 GPU 内存。浅层 MSA 会损害精度，虽然模板可能有所帮助，但系统严重依赖序列数据库和搜索管线。论文还指出了关于复合物、配体、离子、化学计量和动力学的局限：模型预测的是来自序列和同源信息的静态结构，而非完整的生物学语境。

所报告的训练硬件是清晰的，但完整的系统成本包括 CPU 数据库搜索、模板搜索、大型序列数据库的存储/IO、弛豫、集成选择以及自蒸馏数据生成。这些成本超出了 128 TPU v3 训练这一单一陈述的范围。

链接

计算范式：../../../compute_regimes/search_simulation_science_compute/README.md
源 PDF 和抽取文本已在上方元数据中列出。
队列状态：read_complete。