今天和大家聊一个结构生物信息学的话题——蛋白质结构预测。
第一次真正接触结构生物学是在十年前本科的生化课里,小编了解到蛋白质是生命活动的主要承担者,而其功能由结构决定。为更好地研究蛋白质功能,我们需要了解它的结构。而了解其结构的最佳方式莫过于看到其全貌了,所谓眼见为实。后来,小编听了一场关于结构生物学的精彩讲座,讲座嘉宾呈现的一个个精美的三维结构及其对蛋白质分子机理的解释让小编感叹结构生物学的美妙,但也产生了一点疑惑:既然蛋白质的三维结构由其一级结构(即氨基酸序列)决定,为何生物学家没发明一种基于氨基酸序列预测蛋白质三级结构的办法,而偏偏要费时费力地用X射线晶体衍射解析呢?巧的是,一位现场的观众向讲演者抛出了同样的疑问。得到的答案是:准确性太差,且在当时及日后相当长一段时间内,生物信息学手段对于蛋白质结构的预测与实验测定的结果还有相当大的差距。
从左至右,蛋白质的一级到四级结构
五年后,一项新的技术开始被越来越多地应用到结构生物学领域。诞生于上世纪七、八十年代的冷冻电镜(CryoEM)在21世纪早期的迅速发展给结构生物学带来了新的契机,其不需要蛋白质结晶就可以实现结构解析的优势大大拓宽了结构生物学家的研究范围,同时催生了不少重量级的结构生物学成果,尤其是实现了对许多传统方法难以解决的重要蛋白复合体的高分辨率结构解析。
又过了五年,结构生物学的下一个爆点如期而至。或许令人没有想到的是,这次的突破来自生物信息学。在墨西哥坎昆举行的第十三届蛋白质结构预测技术比赛(Critical Assessment of protein Structure Prediction;简称CASP)中,因开发出人工智能维基AlphaGO的而声名大噪的谷歌DeepMind团队带来的AlphaFold以43中25的优异战绩在参赛的98款软件中勇夺桂冠,相信不少读者都从新闻里看到了这一激动人心的消息【1-3】。
CASP比赛两年一度,享有“蛋白质结构预测奥运会”的美誉。其规则是在赛前由结构生物学家解析出一些蛋白结构,但并不立即着手于在学术期刊发表,而是交由大赛组委会保管。这些蛋白质结构的氨基酸序列,就是本次比赛的试题,而通过实验测定的结构作为答案。比赛中,参赛软件需根据氨基酸序列对三维结构进行预测,按正确率进行评比。AlphaFold所取得的成绩之所以令人震惊是因为其大大领先于亚军iTASSER:iTASSER只预测到3个结构(正确率3/43)。更重要的是,iTASSER是该项赛事的绝对霸主,在此前的连续七届比赛中从未让金牌旁落。至少从成绩上看,AlphaFold的表现标志着人类在生物信息学预测蛋白质结构的巨大进步。同AlphaGO类似,AlphaFold的秘诀还是AI。
小编在很小的时候就有了对于AI(或者更准确地说是超级计算机)的体验。在幼儿园的时候,为了帮改掉小编改掉好动的习惯,家长帮小编报名了少年宫的国际象棋班。那时起,俄罗斯著名棋手卡斯帕罗夫就成了小编的偶像。然而,97年5月,小编见证了偶像的失利:由IBM公司设计的超级计算机深蓝(Deep Blue),以3.5:2.5的比分击败了久居世界国际象棋第一人宝座的卡斯帕罗夫,实现了电脑在国际象棋领域对人类的伟大胜利。深蓝的成功让小编体会到了电脑的威力。小编曾年少无知地有过与深蓝过招的冲动。可惜,赛后IBM公司即宣布了深蓝退役的消息,深藏功与名。
人类棋王卡斯帕罗夫(左)与冰冷的深蓝(右)
后来因为搬家,小编中断了国际象棋的学习,此后多年在棋坛只得混迹于四国军棋的联众世界。再次接触“正经”棋类运动已是中学阶段。那时一部叫做《棋魂》的动漫,让小编萌生了学习围棋的冲动。当时在围棋上,电脑和人类的差距很大。苦于天赋有限和学业压力,小编的围棋水平一直处于入门级,连当时最弱的电脑都下不过。尽管如此,小编还是时常关注电视上的转播,记得最厉害的是韩国的李世石九段。中国的一众高手向他的霸主地位发起了一次又一次的挑战,虽然几乎看不懂棋谱的招数,但每一次高手的对局还是让小编热血沸腾。
再次在电视里见到李世石是16年,这一次,昔日的不败少年迎来了一位特殊的对手——AlphaGO。这一年的3月9日-15日,代表人类出战的李世石奋勇拼搏,还是以1:4败下阵来。该结果令棋手们大跌眼镜——赛前,职业棋坛压倒性地对李世石充满信心。此后,越来越多的围棋AI如雨后春笋般涌现出来。各路不服输的专业高手纷纷同这些AI展开对战,从信将疑到五体投地。
时至今日,围棋界已没有人怀疑AI的水平。围棋AI更是成为中日韩围棋高手的常规设备。据称,职业棋手会在训练中用AI作为参考,比赛时大量运用AI的招数,解说中借助AI对形势的优劣进行判断。
让我们回到结构生物信息学。
传统上,生物信息学手段对蛋白质三维结构的预测主要分为三类:同源建模法(homology modeling)、穿线法/折叠识别(threading methods/fold recognition),以及从头算法。同源建模法根据数据库(如PDB)中经由实验手段解析出的结构,通过序列比对寻找序列上的进化关系进行模型构建,代表软件有SWISS MODEL。
同源模建(左)和穿线法(右)
穿线法和同源模建法有相似之处,但更侧重于对于折叠模式的识别。其通过把氨基酸序列和已有蛋白质结构进行匹配,并对折叠模式的适合度进行评估,伦敦帝国大学Lawrence Kelley实验室开发的Phyre是穿线法的代表之一。
从头法则完全摒弃数据库里已有的三维结构,依据分子动力学等相关理论,进行从头预测。该法的先驱者是来自华盛顿大学(西雅图)的David Baker,其在1999年开发的罗塞塔石碑(Rosetta)引领了一个时代,也让人们看到了脱离“模板”直接预测蛋白质结构的可能性。
虽然从头预测法具有很强的魅力,但一直以来,学术界的主流观点似乎是同源建模法更值得信赖。然而,同源建模也有明显的短板。如前所述,同源建模法依赖数据库已经解析出来的蛋白质三维结构为模板,也就是说,如果一个蛋白在数据库里没有通过实验解析出结构的同源蛋白(比如其他物种中的ortholog,或者是paralog都没有被解析),那么想要从氨基酸序列预测其结构就显得有些困难了。
后来,几种方法之间的界限变得有些模糊【1】。越来越多的软件开始借鉴百家之长,采用不同混合方法进行预测。其中最出名的一款当属本文开头提到的iTASSER。该工具由华中师范大学校友、现任教于密歇根大学的张阳教授团队开发,当年小编选修的结构生物信息学课程也推荐该法为最佳结构预测工具。iTASSER在此前的连续七届蛋白质三维结构预测大赛CASP中摘得桂冠。
ITASSER工作流程图
然而,该记录在今年的第十三届CASP赛事中终结于AI之手。几天前,DeepMind团队全新打造的AlphaFold通过成功运用深度学习技术在比赛中傲视群雄。简单地讲,同AlphaGO类似,AlphaFold也是通过深度神经网络工作的。鉴于不少媒体以后报道,且小编非专业人士,这里引述一下业内研究人员的话(更多的细节可以在推送后面的引文里查到)【3】:
在构建的过程中,DeepMind在数千已知的蛋白质上训练了一个神经网络,直到它可以仅凭氨基酸预测蛋白质的3D结构。此后,给定一种新的蛋白质时,AlphaFold可以利用神经网络来预测氨基酸对之间的距离,以及连接它们的化学键之间的角度,最后调整初步结构以找到能效最高的排列。根据DeepMind在官方博客中针对AlphaFold发布的科普性文章,他们这样解释道:“我们训练了一个神经网络,来预测蛋白质中每一对残基之间的距离分布,然后将这些概率打成一个分数,用这个分数来评估预测的蛋白质结构有多准确;我们还训练了一个单独的神经网络,用来估计建议预测结构和实际结构之间的差距。”
构建蛋白质结构预测的新方法(DeepMind官网)
小编以为,有几点需要大家特别留心。首先,AlphaFold并非本次CASP大赛中唯一采用AI的软件。本次比赛的前五名获奖作品,都将人工智能与前面说到的几种传统方法结合起来,甚至七届锦标得主iTASSER也不例外【2】。可以看出,AI在蛋白质结构预测领域的应用已是大势所趋。其次,结构生物学的重要应用之一当属药物靶向设计,而AlphaFold这次赛事中取得的突破在这方面的指导意义还不明朗。此外,如果有结构生物学家担心就此失业,未免还是有些杞人忧天,毕竟43中25的结果尽管较以往提升很大,但对于剩下近一半蛋白三维结构预测的“不佳”表现恐怕难以让科学家们对AlphaFold的预测结果太过信任。
小编所在的加拿大蒙特利尔市在人工智能研究领域享有一席之地。著名学者Yoshua Bengio自93年开始一直任教于蒙特利尔大学(Université de Montréal),他所领导的MILA(Montreal Institute for Learning Algorithms)汇聚了众多优秀的科学家。蒙特利尔当地政府正通过各种优惠政策吸引人工智能领域的企业和人才,着力将AI打造为这座全球第二大法语城市除太阳马戏团外的另一城市名片。当然,此举或许也是为了减少法、英裔人士在语言上的隔阂:因为艺术和计算机的语言是全人类共通的。或许得益于包容、多元而慢调的学术环境,三十年前,包括Bengio、Hinton在内的一批AI领域怀才不遇的青年才俊在这里获得了机会,也为AI现在的复兴保留了希望【4】。
同样获益于此的还有来自英国的deepmind团队,其400多名员工里,有包括AlphaGO首席架构师David Silver在内的十多名成员都曾在加拿大的阿尔伯塔大学有过深造经历。记得在击败李世石后的一次采访中,David Silver曾表示,deepmind团队将会把精力投入到更为宽广的舞台【5】。两年后,deepmind重新出山,AlphaFold的惊艳表现刷新了人类对蛋白质三维结构预测的认知。“我们只是迈出了第一步”,deepmind的创始人兼CEO哈萨比斯雄心不已,“这是一个极具挑战性的问题,我们有一个良好的体系,还有很多想法尚未付诸实践。”不知道deepmind这一次会让大家等多久,又将是哪个行业引颈以待?
引文
1. 驻波:阿尔法狗再下一城,蛋白结构预测AlphaFold大胜传统人类模型
2. 知乎:如何看待 AlphaFold 在蛋白质结构预测领域的成功? https://www.zhihu.com/question/304484648/answer/544915994
3. 红星新闻:不止会下棋,“阿尔法狗”背后团队或解开糖尿病等病症之谜
4. 36kr:绝非配角,AI浪潮中的加拿大
5. Xtecher | AlphaGo之父:AI是全人类的,不应由几家公司独占
欢迎关注生信人
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史