Science| 几行深度学习代码设计蛋白质功能位点

蛋白质的结合和催化功能通常由整个蛋白质结构保持的少量功能残基介导。在这里，David Baker团队描述了在无需预先指定scaffold的折叠或二级结构的情况下搭建此类功能位点的深度学习方法。

第一种方法“受约束的幻觉”(constrained hallucination)，优化序列，使其预测结构包含所需的功能位点。第二种方法“恢复”(inpainting)，从功能位点开始，填充额外的序列和结构，通过经过专门训练的 RoseTTAFold 网络在单次正向传递中创建可行的蛋白质支架。作者使用这两种方法来设计包含功能位点的：候选免疫原、受体陷阱、金属配位蛋白(metal-coordinating proteins)、酶活性位点、蛋白结合蛋白，并结合计算机和实验测试来验证设计。

软件安装与代码使用

https://github.com/sokrypton/ColabDesign

https://github.com/RosettaCommons/RFDesign

(1) ColabDesign下载与安装

(2) 固定骨架设计(fixed backbone design)

对于给定的蛋白质骨架，生成/设计一个AlphaFold认为折叠成该构象的新序列

(3) 幻觉(hallucination)

对于给定的长度，生成/幻化AlphaFold认为折叠结构良好的蛋白质的蛋白质序列(高plddt，低pae，许多contacts)

(4) 蛋白质结合剂幻想(binder hallucination)

对于给定的蛋白质靶标和蛋白质结合剂长度，生成/幻化一个蛋白质结合剂序列AlphaFold认为将与目标蛋白结构结合，为了达到这样，最小化PAE并最大化与结合剂界面contacts数量。

您也可以重新设计现有的结合剂(binder)。

(5) 部分幻想(partial hallucination)

如果你有一个基序(结合基序或功能基序)并且你想在它周围产生一个新的scaffold，你可以使用部分幻觉(partial hallucination)。

1 蛋白质功能设计

功能位点scaffolding应用：抗体表位呈递，病毒受体陷阱，活性位点，蛋白蛋白相互作用

两种设计方法：幻想Hallucination；恢复(Inpainting)

受限幻想(Constrained hallucination)，在每一步迭代，将一个序列传递给trRosetta或RoseTTAFold神经网络，该网络预测3D坐标和残基间距离和方向。预测由损失函数评分，该损失函数奖励那些预测的准确结构以及基序概括(motif recapitulation)和其它特定任务的功能。丢失信息恢复(Missing information recovery, inpainting)：部分序列或结构信息输入到修改后的RoseTTAFold网络，完整的序列和结构会联合输出。

蛋白质设计挑战：缺失信息恢复问题。第一列中的问号表示缺少序列信息；第二列中灰色部分，缺少结构信息。

RFjoint可以同时恢复被掩盖的蛋白质区域的结构和序列。网络预测的蛋白质缺失区域与原始蛋白质非常相似，并且可以通过AlphaFold自信地实现。

2 设计候选免疫原和受体陷阱

免疫抗体设计的目标是尽可能准确的构建由中和抗体识别的天然表位，以便在免疫时引发与天然蛋白质结合的抗体。与抗体的额外相互作用是不可取的，因为目的是引发仅识别原始抗原的抗体，因此对于幻觉，作者添加了一个排斥损失来惩罚与scaffold表位中存在的抗体的相互作用。

作为测试案例，对呼吸道合胞病毒F蛋白(RSV-F)，它有几个抗原表位，其中和抗体结构已经确定，作者搭建了RSV-F位点II，一个24个残基的螺旋-环-螺旋基序，之前已成功移植到三螺旋束上(three-helix bundle)，以及一个RSV-F的位点V，一个19个残基的螺旋-环-链基序。作者用backbone的RMSD度量各种折叠方式下的两个表位，成功实现了幻想设计。

(A) RSV-F 位点 V 和 (B) 位点 II 表位支架的 RosettaFold (RF) 和 AlphaFold (AF) 模型：功能性基序以紫色突出显示，一些设计中的N端和C端被涂色为蓝色和红色，以强调幻觉可以找到不同的拓扑解决方案，尽管具有相似的整体折叠。

总体而言，这些设计为进一步开发基于RSV-F表位的疫苗提供了多种有希望的起点。

接下来，将幻觉用于受体陷阱的计算机设计，通过模拟病毒的天然结合来中和病毒，因此对突变逃逸具有内在的鲁棒性。

作为测试案例，搭建了人类血管紧张素转换酶 2 (hACE2) 的螺旋与严重急性呼吸综合征冠状病毒 2 (SARS-CoV-2) 刺突蛋白的受体结合域相互作用的支架。幻觉的 hACE2 模拟物具有不同的螺旋拓扑结构，AF 结构预测以亚埃精度概括了结合界面。

RosettaFold (RF) 和 AlphaFold (AF) 模型：功能性基序以紫色突出显示，一些设计中的N端和C端被涂色为蓝色和红色，以强调幻觉可以找到不同的拓扑解决方案，尽管具有相似的整体折叠。

3 设计金属配位蛋白(metal-coordinating)

作者选择了 96 个恢复设计(Inpained)进行实验测试，发现 76 个具有可溶性表达，至少 8 个具有indicative Co2+ 结合(铁结合的代表)和三个(dife_inp_1， dife_inp_2 和 dife_inp_3具有与设计折叠一致的 CD 光谱，并通过金属结合稳定。金属结合残基的突变消除了结合，dife_inp_1 的滴定分析表明，两个金属结合位点都成功搭建了支架。