基因识别需要解决两大问题:预测出编码蛋白质的区域,并找出基因的各个功能位点。 我们可以将这方面的大量研究大致划分为四个阶段。第一阶段主要是致力于发现基因组 DNA中编码区域的位置。代表这一阶段的两种程序,一个是TestCode,基于Fickett等1982年 的工作,另一个是GRAIL(Uberbacher & Mural, 1991)。它们的缺点是不能准确预测外显子的 位置。第二阶段,如SORFIND(Hutchinson & Hayden, 1992)、Xpound(Thomas & Skolnick, 1994) 等,结合了剪切信号和编码区识别,并据此预测可能的外显子,但没有进一步将预测到的外 显子拼接成完整的基因。第三阶段的程序开始试图预测完整的基因结构,包括GeneID(Guigo et al., 1992)、GeneParser(Snyder & Stormo, 1993, 1995)、GenLang(Dong & Searls, 1994)等。但 是这些程序的预测准确率总是不太理想。另外的问题是,它们一般都假定输入的序列中只包 含一个基因。因此后期的研究工作主要致力于提高预测准确率及适用范围,于是产生了 Genscan(Chris.Burge, 1997)、AUGUSTUS(Mario Stanke, 2003)等代表第四阶段的程序。
主要的基因识别方法大体上可以分为两大类。一类是基于序列相似性搜索的,另一类基 于基因结构、各种信号等内在信息,因此叫做“从头开始”(ab initio)基因识别方法(Rogic et al)。当然,近年来也涌现出了一些结合以上两类方法的软件,以及一些其它利用物理学等 原理的基因识别方法。
2.1 基于序列相似性搜索的方法
这类方法的基本思想很简单,就是经过对比,寻找已知EST(expressed sequence tag,表 达序列标签)、cDNA、蛋白质或其它基因组与输入的基因组在序列上的相似性。一般说来, 外显子由于其参与的功能,因而可能更加保守;内含子或其它基因间的区域相对说来则变化 较大。因此,一旦找到这样的相似性,我们就可以利用这些信息来推测基因的结构。如果单 纯是基于与EST的序列相似性,可能还是不够的,因为EST只是对应于基因序列的一部分, 还不能预测出给定区域完整的基因结构(Rogic et al)。寻找序列相似性的方法可以是局部比对
或全局比对。最常用的序列比对工具是BLAST及其衍生程序(Gish and States 1993; Altschul et al.1997)、Sim4等。另外两个软件,PROCRUSTES(Gelfand et al.1996)和GeneWise(Birney and Durbin 2000)使用基因组序列中同源蛋白与翻译后的ORF的全局比对进行基因预测。一种新的 启发式方法,基于基因组的两两比较,已经被应用于软件CSTfinder(Flavio Mignone et al 2003) 中。这类方法最大的局限在于新发现的基因中,只有一半左右和数据库中的已知基因有着显 著的同源相似性。
2 . 2 “从头开始”的基因识别方法
DP, 动态规划; MM, 马科夫模型, CHMM, class HMM; GHMM, generalized HMM; IMM, interpolated MM; NN,神经网络
表1. 一些“从头开始”基因识别软件 (可能结合同源性信息)
“从头开始”基因识别方法主要是依据序列中的两类信息:“信号”和“内容”。“信
号”是指一些较短的功能序列( 如剪切位点,起始密码子和终止密码子等)。“内容”指的是 物种特异性的密码子使用偏好性。
许多算法可以用来建立基因结构的模型,如动态规划、线性判别分析、隐马科夫模型、 神经网络等。根据这些方法,产生了大量的基因识别软件,表1列出了其中一些较为常用的。 目前许多较为成功的基因识别软件都是基于隐马科夫模型(H i dden Markov Mode l,HMM)
的。在这种方法中,基因结构中不同的部分由HMM中的不同状态表示,状态间的转移是不被 观察到的(‘隐藏的’) Ma rkov过程,这些过程决定了产生特定( 可观察到的) 核苷酸的概率。 由于exon和 i n t ron的长度是由p re-mRNA剪切等因素决定的,所以对于实际基因需要更通用的 模型,来反映多变的长度分布。图3是一个基因组序列中的状态转移图。
图3 真核基因HMM的状态转移图
对于一条特定的序列,我们可以找出该序列最有可能代表的基因功能单元(如启动子、外 显子等)。所以,可以使用这种模型进行DNA序列的自动注释。
2.3 一些新的方法
HMM方法的主要局限性之一,在于我们对基因结构的了解还很不全面,尤其是对新测 序得到的基因组。而且,目前已知的基因也比较有限,不能代表全部可能的基因特征或组织 方式。所以近来一些物理学和信号处理的方法也被应用到基因识别领域。
众所周知,DNA分子中蛋白编码区域的碱基序列存在着‘3’的周期,这是由三联体密 码所决定的。离散傅立叶变换就适合用于处理周期性。对于长度为N的DNA序列,令uA(n), uT(n), uC(n), and uG(n)分别代表对应核苷酸的二进制函数,如果对应的核苷酸在位置n出现则 函数值为1,反之为0。对这些序列分别进行离散傅立叶变换,得到四种频谱,分别记做UA(k), UT(k),UC(k)和UG(k)。对于给定的DNA序列,其总的频谱定义为:
S (k ) = UA (k ) + UT (k ) + UC (k ) + UG (k )
对于DNA中的编码区,S(k)峰值出现频率一般为k=N/3,而在非编码区一般不会出现显 著的峰值(Tsonis et al.)。根据这个特性,可以进行基因的识别。
张春霆院士提出的Z曲线的方法,是另一种可视化分析DNA序列的有力工具。它已被应 用于人类基因组(Yan et al., 1998)、酵母基因组(Zhang and Wang, 2000)及Vibrio cholerae基因 组(Wang and Zhang, 2001)的基因识别。对于预测较短的编码序列,其预测准确性高于 GenScan,但计算复杂度却远比后者简单。
整理自网络
欢迎关注生信人