分子生成作为药物设计领域的一个基本问题, 旨在以低成本和高效率的方式设计出具有理想生物活性和药代动力学属性的新颖分子. 近年来深度生成模型在药物设计中得到了广泛应用, 大量的模型结构和优化策略得到探索, 其中大多是生成一维或二维的分子结构. 随着深度学习在处理几何图形数据上的快速发展, 面向3D分子的生成模型被提出, 因其在直接生成3D分子构象和基于结构的药物设计上的优势和潜力而越来越受到关注.
浙江大学宋杰团队
对近年来国内外学者在3D分子生成上取得的成果进行了系统的总结和分析, 从3D分子生成算法输入的角度将其分为基于隐变量的生成、基于2D分子图的生成和基于3D分子构象的生成; 接着从3D分子生成算法输出的角度将其分类为定向生成和非定向生成; 随后总结了相关生成模型在主要的公开数据集上的性能, 以探究各种生成模型的优缺点; 最后对未来可能的研究方向进行了展望.
新药研发被公认是一个时间长、耗费大、风险大的漫长过程. 一款新药从药物发现、临床前试验、临床实验到审批上市, 平均需要花费10年时间和26亿美元研发费用, 投资回报率不到2%. 药物发现的主要目标是针对人类疾病研发出具有所需功能且对人体安全的药物, 包括靶标发现和验证、虚拟筛选、先导化合物设计和优化、临床前候选化合物优化等一系列步骤. 先导化合物设计和优化的常用策略是从具有潜力的已知活性分子入手来进行改造, 其目标是通过优化已有的苗头化合物来寻找药物活性更高、药代动力学性质更好且副作用更小的新型分子. 传统的计算机辅助药物设计技术如虚拟筛选, 通常利用专家制定的规则, 需要大量的数据和特征工程, 且很难在巨大和离散的类药化学空间(1023~1060量级)中搜索到新颖的化合物.
随着深度学习技术的发展和定量构效关系(Quantitative structure-activityrelationship, QSAR)数据的剧增, 多种深度生成模型联合强化学习或贝叶斯优化算法在生成具有理想属性、新颖且多样的分子上显示出较大潜力, 这为学术界和制药行业大幅缩减了新药研发的时间和成本. 近年来基于深度学习的分子生成方法主要包括基于SMILES和基于分子图表示的方法. 尽管这些分子表示方法在各种应用中都很有效, 但更本质和更富含信息的分子表示是3D几何, 其中原子由其笛卡尔坐标表示. 在化学信息学和计算化学等领域处理3D分子构象至关重要, 这是因为它决定了分子的生物、化学和物理性质, 如电荷分布、势能、分子对接、药效团搜索等. 比如在药物设计中, 理解分子如何与特定的靶蛋白结合至关重要, 而这一过程很大程度上取决于这两者的3D构象, 包括几何(形状匹配)和化学(疏水、亲水)相互作用. 预测3D分子构象的传统方法包括实验测定和基于力场或量子力学的第一性原理预测, 这些方法十分耗时且成本高昂. 随着几何深度学习在处理几何图形数据上的快速发展, 近年来面向3D分子构象的深度生成模型逐渐成为研究热点.
分子生成(molecular generation)利用深度学习技术来学习分子数据集的概率分布, 并生成具有理想生物活性和药代动力学属性的新颖分子. 分子生成通过在类药化学空间中搜索和采样多目标属性约束的新分子, 有效减小了搜索空间, 进而加速上述药物发现的进程. 现有的绝大多数基于字符串或基于图的分子生成方法由于缺乏空间信息而无法识别出空间异构体、原子间非键相互作用、以及分子和靶标蛋白在三维空间中的相互作用, 因而在实际药物设计场景中受到限制. 3D分子生成(3D molecular generation)有助于解决上述挑战, 旨在设计出具有理想生物化学属性和几何属性的新颖分子. 比如在基于受体结构的药物设计中, 不同于2D分子图的简化结构表示, 3D分子生成算法生成的3D构象可以在生成过程中考虑分子内或分子间相互作用, 以及来自蛋白口袋的局部约束, 因而能更好地保证预测的结构具有生物活性或药物属性. 根据生成算法的输入将现有的3D分子生成方法总结为三大类, 第1类基于隐变量的生成是指在没有给出参考分子的情况下生成3D分子构象, 即从零开始生成3D分子构象; 第2类基于2D分子图的生成是指给定2D分子图来生成或优化3D分子构象; 第3类基于3D分子构象的生成是指给定3D分子构象来生成或优化3D分子构象. 根据生成算法的输出将3D分子生成方法划分为定向生成和非定向生成. 非定向生成是指利用生成模型学习训练数据集的分布并从中采样出具有新颖、多样、化学有效以及几何有效(稳定态)等通用属性的3D分子构象. 定向生成是指在符合这些通用属性的基础上还需满足多种特定的生物活性和药物属性, 如对特定靶蛋白具有高结合亲和力、靶标选择性、化学可合成性、安全性等.
3D分子生成是药物发现领域一个极具挑战的任务, 其存在的问题和难点主要包括以下几个方面:
(1) 搜索空间巨大: 由键长、键角和扭转角组成的三维结构空间巨大, 虽然分子图对可能的三维构象施加了特定的约束(例如键长范围取决于键类型, 四面体中心决定了局部原子的空间排列), 然而可能的构象空间随着图尺寸和可旋转键数量的增加呈指数增长, 这阻碍了穷尽探索的可能性.
(2)对称性归纳偏置: 3D分子生成需要处理几何图形式的数据. 不同于一般的图数据, 几何图不仅为每个节点分配一个特征, 还为每个节点分配一个几何向量. 分子可以用几何图来表示, 其中原子的3D坐标是几何向量. 分子的3D构象在空间中具有旋转、平移的几何对称性, 这是因为分子在3D空间中发生旋转、平移后其3D坐标会发生变化, 但控制原子动力学的物理定律是不变的. 在处理分子的3D几何图数据时, 将对称性这种归纳偏置纳入模型设计是至关重要的, 这也推动了几何等变图神经网络的发展.
(3 )构象分布多模态: 一个分子体系的总能量随其结构的变化而改变的方式可以通过势能面来描述, 势能面上存在多个能量高点和低点, 其中最低处称为全局能量最低点, 其他能量较高的极小点则称为局部能量最低点. 真实的分子倾向于以能量较低的稳定态构象存在, 对应于势能面上的能量低点, 这个数量在一到几千之间变化, 如何有效搜索这些势能面上的局部能量最低点是一大挑战. 最近, 扩散模型凭借其强大的生成能力在建模复杂多模态构象分布上显示出优势, 能更好地生成高质量和多样性的结构.
在本文中,浙江大学宋杰团队介绍扩散模型在3D分子生成建模上的出色表现. 现有的机器学习模型正试图从不同角度解决上述挑战, 目前已有一些综述对此领域进行了报道. 为了促进更多研究者的参与, 作者对3D分子生成模型从算法到应用的最新进展进行系统回顾. 本文主要内容安排如下: 首先, 概述了3D分子生成的基本概念; 其次, 梳理了基于隐变量的生成、基于2D分子图的生成和基于3D分子构象的生成这三种方法的研究进展, 每一种方法又根据3D分子生成算法的输出分为定向生成和非定向生成进行讨论; 随后, 总结了相关生成模型在主要的公开数据集上的性能, 来说明各种生成模型的优缺点; 最后,对3D分子生成领域进行总结和展望.
基于深度学习的3D分子生成模型研究进展