深度学习和药物发现与设计
简单介绍深度学习在早期药物开发中的应用
背景
过去几十年,深度学习在多个领域包括图像和语音识别,自然语言处理都取得了巨大成功。而在制药领域,人工智能掀起的第一个浪潮在最近几年开始出现,而其应用场景已经超过了常规的生物活性预测,而扩展到了新药发现的各个方面,包括分子的从头设计,化学合成预测等。
深度学习是机器学习算法的一种类别,它使用由多层非线性处理的神经元组成的人工神经网络(ANN)来学习数据的内部特征。其实早在上世纪40年代就已经有人提出神经网络的概念,直到上世纪80年代产生了现代的ANN。但由于过拟合和梯度衰减等原因,ANN被支持向量机(SVM)和随机森林(RF)等机器学习算法所取代。这些年深度学习的发展使得ANN又开始流行。其主要原因是随着计算硬件的提高(高性能的CPU和GPU的出现)使得网络框架能够拥有更多隐藏层。另外,近些年深度学习算法上也取得了改进,包括用来解决过拟合的Dropout方法,解决梯度衰减问题的ReLU激活函数,以及将卷积和池化过程囊括到网络框架中。
目前应用最多的神经网络包括以下几种。首先是深度神经网络(DNN),它的特点是在输入层和隐藏层可以包含大量的神经元(通常会有几百个),因此可以获取不同层级水平的数据特征。另一个常用的是卷积神经网络(CNN),通常用于图像识别。它通常会包含卷积层和子采样层。卷积层是由一些滤波器组成,每一个滤波器都包含了一小块区域。在向前传递的过程中,每个滤波器都会卷积对应区域的长和宽,然后将滤波器得到的矩阵和对应输入区域进行点积,从而获得每个滤波器的特征图(feature map)。子采样层是为了减小特征图。然后特征图会连接一个普通的神经网络框架,给出一个输出值。由于每个滤波器的参数是相同的,因此会降低内存的使用,提高训练的速度。此外,循环神经网络(RNN)也是常用的ANN框架。不同于前馈神经网络,RNN允许神经元之间的连接可以形成环,它可以将序列数据作为输入,对于一些时间依赖性的任务如自然语言处理中的语音识别,手写识别,股票预测等领域都较为合适。第四个常用的ANN是自动编码器(AE)。AE的隐藏层由编码器(encoder)和解码器(decoder)组成,输入数据经过编码器获取抽象信息,解码器将它输出,通过调整encoder和decoder的参数,使得输入输出之间的误差最小,最后通过encoder编码的信息是能代表输入信号的。因此AE可以用于非线性降维,适用于无监督学习。
化合物性质和活性预测
其实,利用机器学习包括ANN等方法来预测化合物性质和活性已经有很长一段时间了。而目前,深度学习方法是预测化合物活性的首要选择。当化合物由一些分子描述符来表示时,最直接的方法是用DNN来构建模型。主要因为DNN不需要特征选择,而可以处理成百上千的描述符;使用DropOut可以避免过拟合;优化超参可以最大化DNN性能;多任务的DNN要优于单任务的DNN。尤其,曾在Tox21挑战杯比赛中获得冠军的模型DeepTox就使用了多任务DNN,参赛者使用了静态描述符(2D,3D描述符和毒性基团)以及动态生成的指纹(ECFP)来让DNN在训练过程中自行特征推断。这预示着多任务学习相比于单任务学习以及一些传统的机器学习具有一定的优势。
不同于通过计算描述符来刻画化合物,表示学习(representative learning)是让神经网络直接学习分子结构。代表性的工作包括两种方法。一种是UGRNN(RNN的变体),它将分子结构转化成和分子相同长度的向量,然后传递给全连接的神经网络,用UGRNN构建的预测化合物溶解度模型和传统的分子描述符模型性能相当。利用该方法还可以预测药物引起的肝损伤模型,AUC达0.955,超过之前所有同类模型。
另一种方法叫图论卷积模型,它基本的理念类似于UGRNN,就是将分子由向量表示。向量的值由训练神经网络获得。该类模型的第一个方法叫神经指纹方法,分子的2D指纹形成状态矩阵,包括了每个原子的信息和对应的化学键的信息。状态矩阵经过一层卷积操作生成固定长度的分子向量,然后经过softmax转化,然后综合生成化合物最终的表示向量。然后将这个神经指纹传递给普通的神经网络训练。图论卷机模型的优点在于不需要计算描述符,而在训练过程中自动生成指纹。除此之外,根据这个方法还衍生出了许多其他的图论卷积模型。而最近,Google的研究人员将这些模型重构成一个新的架构—信息传递神经网络(MPNN),并用来预测量子化学性质。
深度学习在分子从头设计中的应用
另一个在化学信息学常见的应用场景是利用深度学习生成全新的化合物,具有代表性的工作是VAE(AE的变体)的应用。首先用VAE来将ZINC数据库中的化合物映射到一些潜在空间中。一旦VAE训练完成后,空间中每个点都可以可逆地转换回SMILES序列。如果要生成具有较好化学性质的分子,可以通过搜索空间中的潜在的点结合优化方法,最后将解决方案解码成SMILES。此外,还有报道称将VAE和生成对抗网络(GAN)结合起来可以更好地预测化合物的抗肿瘤性质。
RNN对于化合物的从头设计是另一种方法。有文献报道,用RNN训练大量SMILES序列后,该模型能非常准确地生成新的活性结构,因为它能够学习SMILES字符串所表示的每个字符的概率分布(大概类似语音识别)。此外,RNN还可以生成针对某个靶点的化合物库通过迁移学习这个靶点的活性化合物库。
除此之外,增强学习结合RNN可以生成具有较好脂水分配系数和成药性的化合物。但是这种方法需要包括一个回馈函数,引入手写规则来惩罚具有不良性质的结构,可能会导致利用这个规则生成一些不切实际的简单的结构。为了克服这个缺点,研究人员提出了一种基于策略的增强学习方法来调整预先训练的RNN模型来生成具有用户指定性质的新的分子。利用该方法生成多巴胺受体2的化合物中有95%被证明是有活性的,显示出其强大的性能。
深度学习在预测反应和逆合成分析中的应用
合成预测早在上世纪60年代就有人提出,早期是根据规则来进行预测。而利用深度学习来预测合成反应是直到最近几年才兴起的。虽然没有人比较过是否深度学习要优于其他机器学习方法,但有研究表明要深度学习优于基于规则的方法。在合成领域,模型需要解决两个基本问题。第一,预测正反应,即给定一系列反应物来预测产物。第二,预测逆反应,即给定终产物来预测反应步骤。Coley利用神经网络训练US专利的15000个反应来排序可能的经过一系列反应的终产物。该模型依赖于模板,能正确分类主要终产物,其中71.8%排在第一位,86.7%排在前三位,90.8%排在前五位。此外,该组在后续研究中还开发了一种不依赖模板的模型,和依赖模板的模型具有相当的性能。另外,有研究组用350万的反应作为训练集来构建DNN,结果前十正反应预测准确率达97%,逆反应达95%。针对逆反应分析,他们还使用策略网络和蒙特卡洛树搜索算法来训练文献搜集的1200万个反应。这个框架可以解决两倍于基于规则方法的逆反应合成计划。
深度学习在预测蛋白-配体相互作用中的应用
在早期新药研发阶段,评估蛋白和小分子相互作用是所有分子对接软件需要解决的关键问题。许多打分函数一般是基于力场的,或是基于已有蛋白-小分子复合物结构的知识。受到CNN在图像识别领域的成功应用的启发,一些研究开始将CNN应用于蛋白-小分子相互作用的打分。一个典型的例子是将小分子结合位点按0.5Å的距离分割成距离边界24Å的格点。每个原子代表一个函数,格点中的原子密度转换成输入矩阵,然后多层CNN模型用Caffe深度学习框架来训练。在CSAR的多靶标小分子构象预测数据集上,该方法要明显优于常用的Autodock Vina,而在靶标内构象预测数据集上,则要弱于Vina。虽然卷积网络取得了一些令人欣喜的成绩,但目前还不确定它是否能一直有优于目前主流打分函数的表现。
总结
自上世纪90年代开始,机器学习就已经被证明在药物发现领域是一个有用的工具。和其他方法相比,深度学习具有更加灵活的架构,因此可以专用于解决某一类问题。但是,无论机器学习还是深度学习,都需要大量的数据进行训练,然而,人类大脑只需要几个例子便能学习。因此如何学习小规模训练数据是今后机器学习的一个热点方向。此外,深度学习是否要优于普通机器学习方法?目前来看下结论还为时过早,只能说在药物从头设计和反应预测领域深度学习显现出出众的性能。但是对于普通的描述符训练任务,深度学习只能说和其他方法是相当的。然而,其他机器学习方法同样在不断改进,例如在Kaggle比赛中多次获胜的XGBoost方法。如果不同的训练方法有大致相同的准确率,那我们应该要考虑实验数据的不确定性以及数据集的大小,而非计算方法了。
参考文献
Chen H.M., Engkvist O., Wang Y.H., Olivecrona M., Blaschke T. The rise of deep learning in drug discovery. Drug Discovery Today, 2018, 23:1241-1250.
更多生信分析套路,请加微信13621202201
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史