从这篇推文开始,我们将介绍生物信息学的一个重要分支——结构生物信息学(structural bioinformatics),可能对于从事测序相关工作的同学而言,这是一个较为陌生的领域。其实结构生物信息学和生物信息的其他领域一样,只是其研究对象是生物大分子结构而非序列,目的是开发能处理生物大分子数据的一般方法,并利用这些方法去解决生物学问题并创造新的知识。这些年,随着基因组测序的成功应用,表达谱的高通量分析以及化合物质谱鉴定技术的发展,结构生物信息学已经变得越来越重要,并且在多个方面取得了进步,包括操作机器人获取结晶条件,X-射线衍射数据分析,冷冻电镜数据处理等。而将结构数据和爆炸式增长的基因组数据关联起来,对于多层面阐述细胞信号工作机制,开发药物都提供了前所未有的机遇。这一期先带大家认识结构生物信息学中最基本的元素——蛋白质结构(protein structure)。细胞中最主要的结构和功能原件就是蛋白质,为了理解蛋白质的生物学功能,我们必须从蛋白的氨基酸序列推测出其三维结构。目前,蛋白结构测定的方法主要包括X-射线衍射(X-ray),核磁共振(NMR)以及冷冻电镜(EM)三种方法。其中最为常用的是X-射线衍射的方法,其测定原理大致可以由下图表示,将X射线光束照射到蛋白质晶体上,会产生光的衍射的现象,在后面放置探测器,收集探测器上的衍射点的信息,将衍射点的强度转化为每个原子电子云密度,从密度来模建蛋白质的三维结构。根据蛋白质结构数据库(Protein Data Bank)的统计,80%的结构是通过该方法测定的。核磁共振是另一种蛋白结构测定方法,在收集数据前,将蛋白样品装入核磁管,放入核磁谱仪中,在质谱仪发出电磁波后,会激发蛋白中的H、N13、C13原子,最后通过数据处理,谱图处理,结构计算从而获得蛋白质三维结构。NMR方法一般只适用于分子量小于30KDa的蛋白,但它可以获得蛋白的动态变化信息,这是X-ray无法比拟的优势。最后,冷冻电镜是近几年开始兴起的结构解析方法,目前它较适用于超大蛋白分子聚合物的结构测定。
对蛋白结构进行明晰简洁的可视化展示是对模型的原子结构排布的最有力的说明。目前,蛋白结构可视化的软件非常多,有单独的软件包如PyMoL,Chimera,BALL等,还有基于Web的插件如JSmol,OpenAstexViewer,GLmol,NGL等等。在此,我们以PyMoL为例,介绍下如何查看蛋白质的三维结构。PyMoL下载地址https://pymol.org/installers/,在安装PyMoL前要先安装Python,最新的PyMoL支持Python3.7,PyMoL 1.X的版本只需安装Python2.7就可以了。打开PyMoL界面,一共有两个窗口,上面是外部GUI界面,下面是展示窗口。我们以葡糖激酶(PDB ID:1V4S)作为例子,点击File——Open导入其晶体结构,鼠标的基本操作包括以下:在右上角会出现一个object,有A,S,H,L,C按钮,A是指action,包括对结构的空间操作(删减,拷贝,视图等);S代表Show,是指对结构的展示方式(卡通,表面,球状,网格等);H代表Hide,包括隐藏展示方式,主链,侧链,水分子等;L代表Label,指标注一些结构信息比如残基,B factor等;C是指color,可以供用户选择不同的颜色。我们点击Show——As——Cartoon,蛋白就以卡通的方式展示,可以看到蛋白的一些二级结构如螺旋(Helix),折叠(Sheet),无规则卷曲(Loop)。
在展示窗口的最上方有显示蛋白的氨基酸序列,我们拖到最后,发现有个叫MRK的分子,我们点击MRK,右键Action——copy to object,该分子就单独拷贝了一份,我们可以对该object重命名,点击object一栏的Action——rename object,将名字改为MRK,按下回车,点击Show——as——sticks,该分子以球棍的方式展示。为了区别于蛋白的颜色,我们把小分子用紫色显示。
如果想提取小分子周围的位点残基,我们可以在外部GUI界面的控制台输入select pocket,byres 1v4s within 5 of MRK,在pocket一栏点击Action——copy to object,重命名为pocket,同样以球棍的模式显示。这样我们就把该分子周围5Å范围内的残基提取出来了。
最后,我们需要渲染才能保存成图片输出,在外部GUI界面的菜单栏点击Display——Background——White,即将背景调整成白色,在控制台输入ray 1000, 1000,等待渲染完成后点击File——Save Image As——PNG,即可保存成图片。
最后,我们来简单讲一讲蛋白质的结构比对。就如同序列比对在生物信息中的地位一样,结构比对(structural alignment)也是结构生物信息学的一个基本问题。通过结构比对,我们可以搜索同源蛋白,预测蛋白功能,查看局部构象变化等。通俗一点来说,结构比对就是叠合两个蛋白,使得两个蛋白中每一对相应原子之间的平均距离最小,该距离叫做均方根偏差(Root mean square deviation, RMSD)。在PyMoL里,我们可以通过在控制台用align命令实现,比如align structure_A, structure_B,最后会给出RMSD,值越小说明结构越相似。今天就介绍到这里,下一期我们将会介绍最常用的蛋白结构文件格式(PDB)。欢迎关注生信人
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史
