基于GNN的分子表征对比学习加速药物发现----中国科学院网信工作网

创新与应用案例

基于GNN的分子表征对比学习加速药物发现

日期：2022-04-29

| 来源：【字号：大中小】

2022年3月3日，《自然机器智能》发表了卡内基梅隆大学的一项研究成果。研究团队利用大量的未标记分子来建立机器学习（ML）模型，开发了一个名为MolCLR（用GNN表示的分子对比学习）的自我监督学习框架，显著提高了模型的性能。与监督学习相比，通过MolCLR训练的简单GNN模型在所有分子基准上都有显著改进；与无法利用未标记数据的更复杂的GNN相比，MolCLR甚至在几个分子基准上通过微调将简单的GNN模型提升到最先进的水平（SOTA）。该模型有望实现高效的分子设计，可以用于药物发现、能源储存和环境保护等多种应用。

快速准确地预测分子特性，对于推进从材料科学到制药等领域的科学发现和应用具有重要意义。科学家们已经开始使用ML方法来帮助计算化学研究。但是，大多数ML模型只能利用已知或标记的数据。受益于可行但未标记的数据数量的迅速增长，自我监督/预训练的分子表示学习也得到了研究。

MolCLR模型是在对比学习框架的基础上开发的。三种分子图增强策略——原子掩蔽、键删除和子图删除被用来生成对比对。来自正增强分子图对的潜在表示与来自负对的表示形成对比。MolCLR由四个部分组成：数据处理和增强、基于GNN的特征提取器、非线性投影头和归一化温度标度交叉熵（NT-Xent）对比损失。

为了证明MolCLR的有效性，研究人员对来自MoleculeNet的多个具有挑战性的分类和回归任务的性能进行了基准测试。研究显示，MolCLR很容易实现，并且对特定领域的复杂性要求很少。与表现最好的监督学习基准相比，MolCLR也表现出可匹敌的性能。此外，MolCLR在分子数量有限的数据集上表现非常出色。通过对大约1000万个未标记分子数据的对比学习，MolCLR可以自动将分子嵌入到代表性特征中，并以化学上合理的方式区分化合物。

信息来源：

https://www.nature.com/articles/s42256-022-00447-x

ScienceAI. https://mp.weixin.qq.com/s/VqceU9gxctLlkIPbpLd7zg

附件：