Improved protein structure prediction using potentials from deep learning
Improved protein structure prediction using potentials from deep learning - 中文验证版
英文原文卡片:alphafold1_2020.md
状态:已翻译。
元数据
- Reading status: read complete
- 年份:2020
- 计算范式:搜索、仿真与科学计算 (
search_simulation_science_compute) - PDF:2020-alphafold1_2020.pdf
- 抽取文本:2020-alphafold1_2020.txt
- PDF URL:https://discovery.ucl.ac.uk/10089234/1/343019_3_art_0_py4t4l_convrt.pdf
- OpenAlex:
- 引用计数来源/日期:
- 引用计数:
- 阅读卡创建日期:2026-06-15
计算设置
排队的 Nature PDF 无法直接下载,但 OpenAlex 定位到一份绿色 OA UCL Discovery PDF,已下载并抽取。可获取文本未列出神经网络训练硬件。按项目规则,训练设置仅推断到年代层级:2018-2019 年 DeepMind 数据中心加速器基础设施用于深度残差神经网络,确切 TPU/GPU 数量无法从本地来源获得支持。
来源确实披露了一个重要的计算组件:结构实现是基于 CPU 且可并行的。Extended Data Fig. 4 说明计算量以 CPU 机器数量乘以运行时间来衡量,且工作可以在很大程度上并行化。这意味着 AlphaFold1 管线不是单一的巨型加速器任务。它包含一个学习得到的神经网络阶段、MSA/模板特征提取、势函数构建,以及可分布到多台机器上的重复梯度下降结构优化。
本地来源还识别出数据/软件输入:PDB 2018-03-15、CATH 2018-03-16、Uniclust30 2017-10、截至 2017-12-15 的 PSI-BLAST nr,外加 HHblits 和 Rosetta。论文将神经网络权重和 CASP13 输入开放供研究使用,但不包括训练设备细节。
瓶颈
蛋白质结构预测需要从有限的同源序列证据中获得精确的几何信息。经典的片段组装和采样过程计算昂贵,因为它们搜索庞大的构象空间。接触预测缩小了搜索范围,但二值接触图丢失了距离细节,仍然可能需要复杂的采样才能产生完整结构。
AlphaFold1 的瓶颈因此是双重的。学习模型必须从 MSA 中提取成对几何约束,即使同源序列很少;实现阶段则必须在有限的采样预算内将这些约束转化为坐标。论文强调,距离分布比接触预测传递更多信息,由此产生的势函数可以通过简单的梯度下降而非复杂采样来优化。
还存在数据管线瓶颈。特征提取通过序列数据库搜索构建 MSA,并计算基于 MSA 的特征。这些特征的质量取决于同源序列深度;扩展数据报告有效序列数与距离直方图精度相关。长序列目标在实现时间上开销也更大。
方法适配
AlphaFold 通过将任务拆分为密集学习推理和可并行连续优化两部分,使蛋白质折叠适配可用计算。一个深度残差卷积网络预测残基间距离分布(距离直方图),而非仅预测接触。扩展图表描述了具有膨胀卷积的残差块,在降低激活维度后应用,以及允许梯度通过极深网络的跳跃连接。
预测的距离直方图转化为统计势函数。补充材料给出距离势函数为残基对负对数似然之和,包含参考态变体,外加扭转角和平滑项。论文随后通过梯度下降优化该势函数以生成结构。这是一种计算适配:用学到的势函数上的可微优化替代广泛的随机片段搜索,然后在有更多 CPU 机器时间可用时并行运行多次重启或重复。
该方法还保留了在计算上有效的领域特定管线组件。HHblits 构建 MSA,Rosetta 用于弛豫/项,而目标 T0999 是一个 1,589 残基的目标,基于 HHpred 同源匹配手动分割。这还不是 AlphaFold2 式的端到端坐标生成;它是一个围绕现有生物搜索工具、残差 CNN 预测和 CPU 并行实现设计的混合系统。
证据
主要基准证据是 CASP13。AlphaFold 为 43 个自由建模域中的 24 个创建了高精度结构,摘要中定义为 TM score 0.7 或更高。次优方法使用采样和接触信息,为 43 个域中的 14 个达到该阈值。扩展数据还比较了五个 AlphaFold CASP13 提交、模拟退火结合片段组装以及梯度下降提交。梯度下降在 CASP13 期间仅用于目标 T0975 及之后,论文包含了使用部署系统对更早目标进行的回填梯度下降运行。
论文将这种质量与计算选择联系起来。Extended Data Fig. 3 说明距离直方图精度预测实现结构的 lDDT 和 TM score,并报告了用于结构精度分析的 377 个域的测试集。它还指出 MSA 中的有效序列数与距离直方图精度相关,r=0.634。Extended Data Fig. 4 说明 TM score 随梯度下降重复次数增加而提高,且结构实现具有适度、可并行的 CPU 机器预算。
因此证据支持计算论点:学到的距离分布使下游优化景观足够有用,以至于重复梯度下降可以为许多目标替代更重的采样。
历史影响
AlphaFold1 表明学到的距离势函数加可微优化可以超越传统蛋白质结构管线。历史上,它标志着从接触辅助搜索向学习几何势函数的转变。其计算结构尤其重要:神经网络一次性预测丰富的约束,然后并行 CPU 机器实现过程为每个目标花费可变计算。
这一设置为 AlphaFold2 奠定了基础,但并不属于同一计算范式。AlphaFold1 仍然依赖 MSA、模板/搜索工具、手工设计的势函数项,以及网络外的基于梯度的折叠。其历史影响在于证明了深度学习几何可以在完全端到端坐标预测到来之前主导旧的采样瓶颈。
局限
训练硬件在可获取文本中未披露。仅直接陈述了结构实现基于 CPU 且可并行的性质。该方法仍依赖 MSA/模板管线、HHblits/HHpred 式搜索、Rosetta 相关项、手工设计的势函数,以及基于梯度的折叠,而非完全端到端的结构模块。
计算预算也依赖于目标。更长的蛋白质优化时间更长,T0999 需要手动分割。系统从重复梯度下降中获益,但这是推理时搜索预算,而非固定的单次前向传播。最后,本地来源支持 CASP13 和扩展数据证据,但不支持确切的训练芯片数量、挂钟训练时间、batch size 或利用率。
链接
- 主要来源:UCL Discovery PDF、抽取文本
- 替代来源解析:在排队的 Nature PDF 端点失败后,OpenAlex 定位到 UCL 绿色 OA PDF。
- 补充材料:Nature supplementary information
- 计算范式:
history/compute_regimes/search_simulation_science_compute/README.md - 队列状态:
read_complete。