在药物开发早期阶段,化学空间的全面探索对于发现新的药物化合物至关重要。然而,传统的虚拟筛选方法通常依赖于有限的化合物数据库,无法有效探索数十亿甚至更多的虚拟化学空间。化学语言模型为探索这些广阔的化学空间提供了一种新方法。然而,现有的模型在生成的化合物的合成可行性和目标特性优化方面仍存在不足。
2024年10月29日,来自日本神户大学的研究人员在Journal of Chemical Information and Modeling上发表研究Navigating Ultralarge Virtual Chemical Spaces with Product-of- Experts Chemical Language Models。
研究人员提出了一种新的模型架构,名为专家产品化学语言模型(Product-of-Experts, PoE),该模型通过结合预训练模型、专家模型以及反专家模型,导航超大虚拟化学空间,并生成具有目标属性的化合物。PoE模型通过优化化合物的合成可行性和目标特性,显著提高了药物筛选的效率。实验结果表明,PoE模型生成的化合物在多巴胺D2受体结合力预测和血脑屏障渗透性等关键指标上优于传统化学语言模型。
图1: PoE化学语言模型示意图
随着计算化学的飞速发展,虚拟化学空间的规模呈现指数增长。超大规模的化学空间为药物研发提供了无数的化合物候选,但完全筛选这些空间几乎是不可能的。传统虚拟筛选方法面临两个主要挑战:
1. 计算复杂度高:随着虚拟化学库规模的增加,筛选计算资源消耗也随之线性增长,难以快速评估化合物的药效和物理化学特性。
2. 合成可行性不足:即便现有的化学语言模型能够生成大量新化合物,这些化合物往往难以实际合成,限制了其在实际药物开发中的应用。
为了解决这些问题,研究者们转向了化学语言模型,这些模型基于分子表示学习生成新的化合物,并能快速探索超大化学空间。然而,这些模型在优化生成化合物的特定药理属性和保证合成可行性方面仍存在局限。针对这些不足,研究人员提出了PoE模型,以提高生成化合物的可行性和药效预测能力。
专家产品(PoE)模型的构建
PoE模型的设计灵感来源于机器学习中的专家产品(Product-of-Experts, PoE)。它结合多个专家模型的输出,通过协作的方式实现更精准的预测。在PoE化学语言模型中,研究者结合了以下三种模型:
1. 预训练模型:该模型在超大化学空间上进行训练,提供对整个空间的全面理解。它可以为生成化合物提供基本的化学结构。
2. 专家模型:专家模型是专门针对目标特性优化的模型,例如生成对特定受体具有高亲和力的化合物。通过在特定化学空间上的微调训练,专家模型可以生成符合特定药物开发需求的化合物。
3. 反专家模型:反专家模型则用于减少不合成可行或不具备目标特性的化合物生成。它通过与专家模型的协同工作,确保生成化合物的化学特性和合成可行性相互平衡。
通过将这三个模型结合,PoE模型不仅能够生成结构多样化的化合物,还能针对目标药物特性进行优化,保证化合物的可合成性。
表1 化学空间建模模型性能总结
实验设计与结果分析
本文的实验集中于使用PoE模型生成具有良好多巴胺D2受体结合力的化合物,并且这些化合物具有良好的血脑屏障渗透性(BBB)。为验证PoE模型的有效性,研究者设置了两组实验:
1. 化合物对接实验:研究者首先评估了PoE模型生成化合物的对接评分,结果显示,PoE生成的化合物与多巴胺D2受体的对接评分显著优于传统的化学语言模型。这表明,PoE模型在优化化合物的药理学特性方面表现优异。
2. 血脑屏障渗透性预测:通过使用预测模型,研究者进一步评估了生成化合物的血脑屏障渗透性。实验结果表明,PoE模型生成的化合物不仅能够通过血脑屏障,还能保持其在中枢神经系统中的药效作用。
此外,研究者还通过合成可行性评分验证了PoE生成化合物的实际合成可能性,结果显示,生成的化合物大多数在合成上具有较高的可行性。
图3 85 M模型生成的化合物随机示例
模型优势与实际应用
PoE模型的核心优势在于其模块化设计,通过结合多个专家模型,它可以灵活应对不同的药物开发需求。例如,在某些药物开发任务中,研究者可以调整专家模型的权重,以生成更符合特定药效需求的化合物。同时,反专家模型的引入使得生成化合物在化学空间中的合成可行性得到保证。
这一架构使PoE模型不仅适用于药物发现中的早期筛选,还能应用于化合物的优化过程,生成同时具备理想药效和物理化学性质的候选药物。该模型已经成功应用于多个药物靶标的筛选任务,显著加速了新药的发现。
未来展望与挑战
尽管PoE模型在化合物生成和筛选上展现了巨大的潜力,仍有一些挑战需要克服。首先,如何进一步提升模型生成化合物的物理真实性仍是一个难题。其次,随着化学空间的不断扩大,如何在保证化合物多样性的同时优化其药效和可合成性,仍是未来研究的重点。
未来,PoE模型将会与更多的大语言模型(LLM)结合,用以处理更广泛的化学数据。同时,通过整合更多的实验数据,PoE模型的预测能力也将进一步提升,为药物研发提供更加全面的解决方案。
本文提出的PoE化学语言模型,通过结合预训练模型、专家模型和反专家模型,实现了对超大虚拟化学空间的高效导航和探索。实验表明,PoE模型生成的化合物不仅具有良好的目标药效特性,还在合成可行性方面表现出色。未来,PoE模型有望在更广泛的药物开发领域发挥重要作用,加速新药的发现与开发进程。
参考资料: