关注「生物大模型」,每日追踪生物AI最前沿
核心发现:RiboSphere利用ESM-Cambrian 6B蛋白质语言模型构建抗体可开发性预测框架,通过三种注意力策略的系统搜索发现一个颠覆性的结论:聚集相关属性仅需单链自注意力即可——6B编码器的约120层内部注意力已足够解析CDR-H3疏水基序;而表达量和热稳定性却必须使用双向交叉注意力——因为它们本质上依赖VH-VL异源二聚化的兼容性。在GDPa1基准(242个治疗性IgG、五项可开发性测定)上,表达量预测提升20%,热稳定性提升18%,多反应性提升12%。
Biologically-Grounded Multi-Encoder Architectures as Developability Oracles for Antibody Design
Simon J. Crouzet
2026年4月10日 | arXiv: 2604.09369
AI抗体设计 | ESM-Cambrian 6B蛋白质语言模型 | 可开发性预测 | 注意力机制解析
治疗性抗体从实验室到临床为何频频折戟?
治疗性单克隆抗体构成了一个超过2500亿美元的制药市场,然而约30%的临床阶段候选抗体因生物物理缺陷——聚集、低表达或热不稳定——而最终开发失败。在生物制药生产中,维持可接受的质量属性贯穿整个开发过程始终是一个核心挑战。生成模型的出现使得研究者能够在计算机上提出数千条全新的抗体序列,但没有可靠的计算预筛选工具,这些候选中的绝大多数无法被实验评估,从而在计算设计和治疗现实之间制造了一个关键瓶颈。
抗体可开发性的计算预测方法已经取得了长足进步,从手工设计的序列分析工具到联合优化结合亲和力和生物物理属性的机器学习方法。然而,可开发性本身的机制异质性极高:表面疏水性驱动疏水相互作用色谱(HIC)中检测到的聚集行为;静电自关联导致自相互作用纳米颗粒光谱(AC-SINS)中的信号变化;VH-VL配对效率决定表达滴度(Titer);而协同结构域稳定性影响CH2结构域的热熔解温度(Tm2)。这种机制多样性提供了一个独特的研究机会:通过让神经架构搜索自行选择最佳预测策略,可以反向探究哪些生物物理信号直接编码在抗体序列中(可能由进化塑造),哪些则依赖于重链和轻链之间的结构相互作用。
RiboSphere正是围绕这一核心思想设计的框架。它不仅仅是一个预测工具,更是一个通过架构选择来生成可检验的机制预测的实验平台。框架名称中的"Cross"指跨链注意力,"Ab"指抗体,"Sense"指对可开发性属性的感知能力。
ESM-Cambrian蛋白质语言模型如何编码抗体序列?
RiboSphere的编码端采用了ESM家族的最新成员——ESM-Cambrian蛋白质语言模型,分别测试了300M、600M和6B三种参数规模的变体。此外还评估了ProtT5(基于T5架构、在UniRef50上预训练的通用编码器)以及抗体特异性语言模型(AntiBERTy、AbLang2)和结构增强变体。所有编码器在训练过程中保持冻结,保留预训练的进化和结构知识,同时将可训练参数减少了两个数量级。
一个重要的设计选择是:编码完整的重链和轻链序列(包含可变区和恒定区),而非仅使用可变区或AHO编号对齐的序列。这是因为ESM-Cambrian等通用编码器在全长蛋白质序列上预训练,完整链在其学习的分布范围内,能最大程度地利用预训练知识。超参数搜索的结果也证实,在绝大多数属性上,全链输入优于截断的可变区输入。
值得特别注意的是编码器规模的影响。最终在大多数属性上表现最优的是ESM-Cambrian 6B——拥有约60亿参数和约120层内部注意力层。这个规模的模型已经在其内部构建了极其丰富的逐残基结构上下文表征。正如后文将讨论的,这种高容量编码对于理解不同属性需要不同注意力策略的原因至关重要。
三种注意力策略各自代表什么生物学假设?
RiboSphere的解码端设计了三种注意力策略,每种编码了关于生物物理信息如何在重链和轻链之间分布的不同假设。解码器通过L层预归一化注意力层处理每条链的嵌入,包含残差连接和前馈块(扩展因子4)。
策略一:纯自注意力。每条链在所有L层中仅关注自己的残基,重链和轻链独立处理。这测试了一个假设:属性信号是否能完全从单链序列特征中读取?如果某个属性被这种策略最好地预测,说明相关的序列特征已经被编码器充分解析在每条链的嵌入中,不需要查看伙伴链的信息。
策略二:自注意力+交叉注意力。每层先进行链内自注意力,然后进行链间交叉注意力——重链查询轻链残基,反之亦然。这类似于一种"先折叠后组装"的路径:每条链首先巩固自己的表征,然后查询伙伴链的信息。
策略三:双向交叉注意力。每层仅进行交叉注意力(重链查询轻链残基,轻链查询重链残基),没有任何链内自注意力。这显式地建模了配对VH-VL界面兼容性和协同链间信号,是三种策略中对链间相互作用建模最强的。
在注意力层之后,两条链的表征通过一个可学习的融合权重合并:h = w_H * h_H + (1 - w_H) * h_L,其中 w_H = sigmoid(theta_w) 是一个学习的标量参数。这个看似简单的设计提供了一个强有力的可解释性工具——通过观察 w_H 的收敛值,可以数据驱动地量化每条链对特定属性预测的相对贡献。
超过200次超参数搜索的实验方法是怎样的?
RiboSphere在GDPa1基准上进行评估,该基准提供了242个治疗性IgG在五项可开发性测定上的测量值:疏水相互作用色谱(HIC)、亲和力捕获自相互作用纳米颗粒光谱(AC-SINS)、CHO裂解液多反应性(PR_CHO)、表达滴度(Titer)和CH2结构域热稳定性(Tm2)。所有实验使用5折交叉验证,采用层次聚类和IgG亚型分层,确保序列相似的抗体被分到不同折中。
超参数搜索覆盖了编码器类型(ESM-Cambrian 300M/600M/6B、AntiBERTy、ProtT5)、解码器架构(三种注意力策略)、序列表征(仅可变区、AHO对齐、全链)和训练配置,使用贝叶斯优化配合Hyperband早停。每个属性评估了超过200种配置,每种都在完整的5折交叉验证下进行,优化目标是平均验证Spearman rho。这是一个设计级别的比较:主要变化轴是离散的(编码器类型、注意力策略、序列表征),而非数值微调。
GDPa1基准上的定量结果如何?
| | | | | |
| | | | | |
| | | | | |
| | | | | |
| | | | | |
| 0.656 | | | | |
| | | | | |
| RiboSphere | | | 0.475 | 0.428 | 0.387 |
▲ 表1:GDPa1基准性能(Spearman rho,5折聚类分层交叉验证)。RiboSphere在Titer(+20%)、Tm2(+18%)、PR_CHO(+12%)三项上取得显著改善。
RiboSphere在三项属性上取得了显著改善:表达滴度 rho=0.428(比前最佳的AbLang2提升20%)、CH2热稳定性 rho=0.387(提升18%)和CHO多反应性 rho=0.475(提升12%)。Steiger Z检验在假设模型间相关性r_12=0.90的条件下,三项均达到p<0.02的统计显著性。在HIC(疏水相互作用色谱)和AC-SINS(自相互作用)上,RiboSphere与当前最佳的单属性专项方法保持了2-7%的竞争性能。
为什么最优架构颠覆了最初的生物学假设?
本研究最具洞察力的发现,不在于数字本身,而在于优化过程为每个属性选择的注意力策略,以及这些选择如何挑战了研究者的起始假设。
研究者最初假设,聚集相关属性(HIC和多反应性)会受益于交叉注意力,因为聚集传统上被归因于VH-VL界面的暴露疏水区。然而,纯自注意力在这两者上都被证明是最优的。这一结果的深层原因在于:使用高容量ESM-Cambrian 6B编码器——其约120层内部注意力层已经构建了丰富的逐残基结构上下文——驱动聚集的序列特征(如CDR-H3疏水基序)已经被单链嵌入完全解析。解码器不需要查询伙伴链:如果一条重链携带容易聚集的基序,风险存在与否不取决于它与哪条轻链配对。多反应性遵循同样的模式,与非特异性结合由单链表面局部电荷和疏水特征驱动的认识一致。
相反,表达滴度和热稳定性都需要双向交叉注意力。对于表达滴度,这与一个已知的生物学原理完美吻合:表达不仅取决于单链质量,更取决于VH-VL异源二聚化和四级组装的效率。两条分别折叠良好的链可能配对不佳,产生低表达——解码器必须执行一次显式的链间"兼容性检查"才能做出准确预测。
热稳定性的结果或许最发人深省。CH2结构域的熔解温度传统上被视为由亚型决定的结构域固有属性。模型对交叉注意力的偏好提出了一种新的可能性:链间耦合——通过二硫键、VH-VL界面填充和铰链区力学——调节了整个分子的协同热呼吸。差示扫描量热法(DSC)研究已经表明可变结构域对整体IgG1热稳定性有可测量的贡献,支持了稳定性并非纯粹是恒定区属性的观点。虽然这一解释仍是假设,需要实验验证,但它说明了架构选择如何能生成可检验的机制预测。
链融合权重如何独立验证注意力策略的发现?
可学习的链融合权重(公式1中的 w_H)提供了对链重要性的独立视角。对于聚集相关属性(HIC、自关联),训练收敛到 w_H = 0.62,与重链CDR-H3疏水区作为主要聚集驱动因素的已知认识一致。对于热稳定性,w_H = 0.51,反映了全局分子属性预期的均衡链贡献。
两个独立信号——注意力策略选择和融合权重学习——收敛到相同的结论,极大地增强了解释的可信度:聚集主要由单链特征驱动(重链主导),而稳定性和表达依赖于双链的协同作用。
编码器容量在这里扮演了什么角色?
论文通过编码器容量的视角来解释这种聚集/稳定性的不对称性。ESM-Cambrian 6B看似"饱和"了局部特征检测:有了足够的编码器容量,所有与聚集相关的信息都被顺式(cis)捕获。但无论编码器多大,单链编码器都无法表征链间兼容性——那些信息本质上是双变量的。因为解码器相对于编码器仍然很小,它缺乏通过不必要的交叉注意力路径记忆捷径的能力;只有真正有信息量的链间连接才能在训练中存活。解码器的拓扑因此为每个生物物理属性的关系复杂度提供了一个窗口。
作为实际应用的验证,研究者将RiboSphere部署在100条IgLM生成的抗体设计上,展示了一条从计算设计到可开发性预筛选的实用路径,有潜力大幅减少实验筛选成本。
论文信息
arXiv: https://arxiv.org/abs/2604.09369
GitHub: https://github.com/SimonCrouzet/
参考文献:Simon J. Crouzet. "Biologically-Grounded Multi-Encoder Architectures as Developability Oracles for Antibody Design." arXiv preprint arXiv:2604.09369, 2026.
—— 关注「生物大模型」,每日追踪生物AI前沿 ——