题目
探究蛋白质和lncRNA的互作
摘要
长非编码RNA通过和蛋白质互作行使功能(可能是一对多或者多对一的互作关系)。当前的知识已经描绘出一个复杂的互作网络,它的失调会导致疾病的产生。在最近几年一些技术开发出来基于高通量得到蛋白质和RNA的绑定关系。同时,有关于RBP(RNA绑定蛋白)和lncRNA的精确的互作生物信息学方法开发了出来。这个领域发展越来越快,可以预见的是在不久的将来,蛋白质lncRNA互作的网络会变得越来越大,为探究lncRNA的细胞机制和疾病发生提供线索。
背景
越来越多的有关于RNA绑定蛋白(RBP)靶点的知识使得研究焦点转移到了非编码RNA,不仅仅有发挥翻译调控功能的RNA(rRNAs,tRNAs,小干扰RNA和miRNA),还有大量的异质性很强的长的非编码RNA.
有关于lncRNA,只有非常小的一部分被很好的刻画了。但是他们通过各种各样的分子机制参与到非常广泛的生物学过程中。
有关于蛋白质和RNA的互作,许多的互作中的蛋白质或者RNA和疾病状态相关,其中就涉及到了很多的lncRNA。
有关于lncRNA功能信息的缺失,进一步有关于和行使功能的lncRNA具体特异的序列的缺失,阻止了我们对lncRNA和细胞过程联系的认知。
从另一个方面来看,有许多的实验的和计算的方法用来识别RNA和蛋白质互作,其实这些方法也可以识别lncRNA和蛋白质的互作,最近出来了越来越多的lncRNA和蛋白质互作的数据。
蛋白质和lncRNA互作的检测
最近很多年,有关于这个方面的检测方法很多。首先出现的是低通量的检测方法,只能检测一个或者几个RNA的互作(包括the RNA electrophoretic mobility shift assay, RNA pulldown assay, oligonucleotide-targeted RNase H protection assay and FISH co-localization)。
后来才出现蛋白组(转录组)范围的高通量的方法,这类方法根据以谁为中心进行研究以及是否是体内分成了下面的几类,如下表:
以蛋白质为中心的体外检测方法
流程图如下
这类方法旨在找出和感兴趣蛋白互作的RNA片段(这些片段是人工合成的,并不是真实生物体中的RNA片段)。包括下面几个方法:
SELEX;SEQRS and RAPID-SELEX,HTSELEX(SELEX的变形,在筛选标准上放松了一些,可以得到比SELEX更多的互作关系对);RNAcompete(旨在寻找蛋白质的短序列的RNA互作片段);RNA Bind-nSeq (RBNS)(旨在寻找蛋白质长序列的互作片段,并且有自己独特的筛选标准);RNA-MaP。
这类方法找到的蛋白质绑定的RNA不是真实的RNA转录本,所以,需要寻找到这些RNA对应的mitif,然后对应到真实的RNA上。(寻找RNAmotif的算法有MEME 和GLAM2和MEMERIS和Aptamotif等等)
这类方法的限制:1,是在人工合成(随机生成的RNA库)中检测的,检测出来的结果不真实,这个可以使用真实的转录组的样本进行弥补 2,蛋白质和RNA互作的环境是在体外,并不是在生物体内,众所周知环境对互作影响很大,不可信 尽管有上面的限制,通过体外的实验检测出来的一些互作和一些体内实验检测出来的结果很是接近,说明它还是有一定的可信度的。
到目前为止,体外检测蛋白质和RNA互作的的方法应用并不广泛,因为体内检测的方法发展的很好(更加的可信)。
有一些数据库存储着体外检测的RNA和蛋白质互作:RBPDB存储着lncRNA和蛋白质的互作。
以蛋白质为中心的体内检测方法
这类方法的基础是使用一个抗体把RNA绑定蛋白抗下来。
流程图:
流程:在真实的转录组的环境中,先让蛋白质(红色)和RNA互作,然后使用抗体(蓝色)把蛋白质抗出来,顺带着带出来了和蛋白质互作的RNA片段,然后对带出来的RNA片段进行测序就可以了。
这类方法中包括RIP-Chip RIP-seq CLIP HITS-CLIP PAR-CLIP Iclip CRAC等等。
其中RIP-Chip RIP-seq只能够识别出和某个蛋白质互作的转录本,但是不能够识别出这个蛋白质具体的是和这个转录本上的哪个碱基是互作的,也就是不能够识别出和蛋白质互作的具体的RNA位置。
后面的方法CLIP HITS-CLIP PAR-CLIP Iclip可以解决上面方法的不足,可以识别出和蛋白质互作的RNA的具体的位置信息(其中CLIP是后面的方法的基础,后面的方法中其他的方法都是这个方法的变种)。
CRAC方法并不是基于抗体抗蛋白的方法设计的方法。
分析通过高通量测序得到的蛋白质RNA互作的原始数据需要借鉴二代测序中的一些方法和工具。主要通过下面的几个流程:a 把测序得到的read匹配到参考基因组(转录组)上 b 识别出可以代表真实RNA的read簇 c 推测出RNA和蛋白质互作的事件。
其中匹配到基因组的时候一定要注意区分出交联产生的突变(在CLIP技术中体现的非常的明显,如果感兴趣可以可以读一下文章中这块对应额部分)和测序误差。
其中b步的结果还可以通过一些算法做进一步的筛选得到更可信的结果。这些算法都是通过卡CIMS(交联导致的突变,详细内容可以看原文中CLIP部分)的个数进行筛选。算法包括:PARalyzer, Piranha, wavClusteR, RIPSeeker, MiClip, PIPE-CLIP and the Pyicoclip。这些算法大体上分为两步:1,识别出和蛋白质互作的RNA簇 2,对这些簇进行排秩。
已知的基因 转录本 外显子的基因组坐标可以把识别出来的簇映射到转录本。通常很多数据库都是针对基因构建的,有关于lncRNA的信息并不多,所以需要去专门针对于lncRNA开发的数据库中寻找lncRNA的相关信息,例如:GENCODE的lncRNA目录 NONCODE LNCipedia等等。
其中第c步的结果到目前为止,还没有好的方法可以得到高鲁棒性的结果,因为RNA和蛋白质的互作的机制复杂性和异质性。
以RNA为中心的方法
这类方法是使用纯化的RNA提取和它绑定的蛋白质,然后使用质谱 蛋白质芯片和其他的技术来检测蛋白质的类别。
流程图如下:
使用某个RNA识别出来的和其互作的蛋白组,其实这个蛋白组不仅仅只和这个RNA互作,而是和这个RNA代表的一类RNA互作,比如识别POLYa绑定的蛋白组。
这类方法也有体内体外之分。
尽管这些方法的效能很好,这些方法还是有一定的技术上的挑战性的。比如尤其是在体内方法中识别道德蛋白的量很少,不足以做质谱分析,因为这个原因,所以很多的文献中应用到的RNA都是高表达的RNA,这阻碍了它应用到低表达的lncRNA上;基于交联的方法可有效的解决这个问题。
生物信息学方法
这么多的实验的数据,为我们的生物信息学方法的开发提供了丰富的材料,可以从计算学的角度预测出新的互作关系对。之前开发的方法大部分是针对RNA和蛋白质的互作,而LNCrna也是RNA的一种,所以这些方法同样适用于lncRNA。而且针对lncRNA的计算学方法的开发尤其重要,因为有关于它的实验数据很少。
这类方法包括RPIseq catRAPID lncPro RPI-Pred PRIPU等等。
有关于计算学方法的一个焦点是 方法中使用了案例的某些性质,而在检验集合中找不到。
有鉴于此,我觉得一个好的普遍适用的方法最好使用一些非常基础的大家有性质进行预测,那么这个方法的效能会很好。
欢迎关注生信人