与具有详尽注释的蛋白编码基因不同, lncRNAs常常缺乏注释,信息分散且收集不全。例如,大部分被报道的lncRNA 通过短reads装配而成并且一般都缺乏完整的5’末端或3’末端。通常情况下,由于RNA降解或逆转录酶从3’末端方向合成DNA,致使cDNA文库5’末端的截短。此外,RNA-seq reads在5’末端或3’末端覆盖度不均一。这些不精确或者截短的lncRNA注释会对其下游应用产生巨大的影响,比如把mRNA片段误认作lncRNA,降低FRKM评估转录本丰度的可靠性,以及错判lncRNA的启动子位置。
Arraystar拥有高质量的转录组和lncRNA数据库,对各种来源的lncRNA进行了全面收集,包括所有权威数据库、高水平文章以及通过独家自有收集流程所得到的lncRNA。在芯片lncRNA收录过程中,对全长lncRNA给予了特别关注。比如,优先选择公共数据库中注释为全长或有实验数据支持的lncRNA。通过强有力的已知数据,对Arraystar独家转录组数据库以及最新研究进展中的lncRNA进行了严谨的序列完整性评估,包含是否有组蛋白标记,CAGE簇和DNA酶I超敏位点(DHS)等数据支持的5’末端,poly(A)位点测序(3P-Seq)数据支持的3’末端。另外,Arraystar还使用多种方法对lncRNA的编码潜能进行了评估,只有通过以上评估的lncRNA才会被标记为全长lncRNA,并被收录进芯片。
Arraystar human LncRNA V5.0芯片共收录了39,317个lncRNAs,主要分为两大类:8,393个金标准LncRNAs和30,924个可靠的LncRNAs。
金标准lncRNAs
金标准lncRNAs全部采用经过详细注释和实验验证确定的lncRNAs,剔除了公共数据库中大量的lncRNA部分片段、不完整的UTRs和不可靠的lncRNAs。金标准lncRNAs具有完善的信息标注,包括转录单位、转录本异构体、功能机制以及亚细胞定位。它们的主要来源如下:
1. lncRNAdb v2.0 汇集了功能性的lncRNAs
2. LncRNAWiki 收录的经过实验验证的特色lncRNAs
3. Level 1 GENCODE v21 LncRNAs精选了具有 RT-PCR-Seq 方面实验数据支持的lncRNAs
4. Refseq 严格筛选了可信度高,具有全长序列的lncRNAs
5. Arraystar lncRNA通过 ENCODE CAGE Clusters, PolyA-seq, 深度 RNA-Seq以及 capture seq获得的,具有5’TSS,3’末端和表达量信息的全部lncRNA转录本
Arraystar 保持严格评估lncRNA完整转录本的一贯性原则,持续从高水平文章中精选lncRNA
可靠的lncRNAs
这些lncRNAs序列通常由转录单位而获得,是除了金标准lncRNAs外,lncRNAs转录组中全面且高度可信的lncRNAs分子集合。根据转录本来源数据库,转录本长度和其他有效信息,从每个转录单位中挑选出一个最具代表性的lncRNA,最终从308525个lncRNA序列中筛选出32667个可靠的lncRNAs分子。
涵盖的一组LncRNA是利用最受尊敬的公开转录组数据库(Refseq、UCSC knowngenes、Gencode等)以及具有里程碑意义的出版物精心构建的。这些LncRNA数据库正在不断更新,以确保所有最新的注释LncRNA都包含在阵列中。
接下来我们对Arraystar human LncRNA V5.0收录的高质量数据库进行一个总结:
RefSeq数据库
NCBI RefSeq (Reference Sequence,美国国立生物技术信息中心参考序列库),即RefSeq参考序列数据库,提供的具有生物意义上的非冗余的基因和蛋白质等片段序列的数据库。RefSeq的序列数据来源于大名鼎鼎的INSDC(InteRNAtional Nucleotide Sequence Database Collaboration,国际核苷酸序列数据库联盟),是目前世界上最具有权威性的序列数据库。NCBI的参考序列计划(RefSeq)将为中心法则中自然存在的分子,从染色体到mRNA到蛋白提供参考序列标准。RefSeq标准为人类基因组的功能注解提供一个基础。它们为突变分析,基因表达研究,和多态发现提供一个稳定的参考点。
全面的,整合的,无冗余的序列
基因组DNA,RNA,蛋白产物
是医学、功能、多样性研究的一个基准
为基因组注释,基因鉴定和特性描述,突变和多态性分析,表达研究和比较分析提供稳定可靠的参考
由NCBI和其合作者维护
UCSC Known genes 数据库
加州大学圣克鲁兹分校(UCSC)的已知基因数据集是基于来自Swiss-Prot/TrEMBL (UniProt)的蛋白质数据和来自Genbank的相关mRNA数据,通过完全自动化的过程构建的。描述了该过程的具体步骤。从该数据集到其他基因组和蛋白质组数据进行了广泛的交叉参考。对于每一个已知的基因,都有一个详细的页面,包含了关于该基因的丰富信息,以及其他相关基因组、蛋白质组学和通路数据的广泛链接。2005年7月,UCSC已知基因可以用于人类、小鼠和大鼠基因组。已知基因是支持几个关键项目的基础:UCSC网站提供的基因组浏览器、蛋白质组浏览器、基因排序和表格浏览器。所有相关的数据文件和程序源代码也可用。可以通过http://genome.ucsc.edu访问。分析UCSC已知基因、RefSeq、Ensembl基因、H-Invitational和CCDS的基因组覆盖率。虽然UCSC已知基因在人类和小鼠的主要基因组中提供了最高的基因组和CDS覆盖率,但更详细的分析表明,所有这些基因都可以进一步改进。
Gencode数据库
人类基因组包含成千上万的长非编码RNA (lncRNAs)。虽然一些研究已经证明了引人注目的生物学和疾病的作用,个别例子,分析和实验的方法,调查这些基因的缺乏全面的lncRNA注释。在这里,我们展示并分析了迄今为止最完整的人类lncRNA注释,该注释由GENCODE联盟在ENCODE项目框架内产生,包含9277个人工注释基因,产生14,880个转录本。我们的分析表明,lncRNA的产生途径与蛋白质编码基因相似,具有相似的组蛋白修饰谱、剪接信号和外显子/内含子长度。然而,与蛋白质编码基因相比,lncRNA表现出明显的双外显子转录偏性,它们主要定位于染色质和细胞核,其中一部分似乎优先被加工成小RNA。与中性进化的序列相比,它们承受着更大的选择压力,尤其是在启动子区域,启动子区域的选择水平与蛋白质编码基因相当。重要的是,大约三分之一的人似乎是在灵长类谱系中出现的。综合分析其在人体多个器官和大脑区域的表达,lncRNA的表达普遍低于蛋白编码基因,且表现出更多的组织特异性表达模式,其中组织特异性lncRNA在大脑中表达的比例较大。表达相关分析表明,lncRNA与反义编码基因表达显著正相关。该GENCODE注释为lncRNA的未来研究提供了宝贵的资源。
LncRNAdb数据库
lncRNAdb数据库,是一个真核生物的lncRNA综合数据库。它包括特异的序列结构信息,如转录本、基因组位置、表达、亚细胞定位和保守位点以及相关的功能和疾病。同时还将给出lncRNA相关的文献证据的pubmedl链接以及在基因组位置信息的UCSC链接。
NRED 数据库(The Noncoding RNA Expression Database)
NONCODE DB是一款综合性的数据库,该数据库是一个比较全面的ncRNA相关注释的数据库,尤其是lncRNA信息,不仅支持常用lncRNA的name、NONCODE ID(NONHSAG000001.2)搜索,大部分lncRNA还支持其他数据库名字进行搜索。NONCODEv5收集了自2015年9月以来新鉴定的非编码RNA,非编码转录本总数据量从527336增长到548640,目前包含17个物种(物种包括人、小鼠、牛、大鼠、黑猩猩、大猩猩、红毛猩猩、恒河猴、负鼠、鸭嘴兽、鸡、猪、斑马鱼、果蝇、线虫、酵母、拟南芥和猪),并注释了相关表达谱信息,功能信息及保守性信息等内容。
RNAdb 数据库
近年来,有越来越多的转录本鉴定不编码蛋白质,其中许多是发育调控和似乎具有调控功能。在这里,我们描述了一个全面的哺乳动物非编码RNA数据库(RNAdb)的构建,该数据库包含800多个独特的实验研究的非编码RNA (ncRNAs),包括许多与疾病和/或发育过程相关的非编码RNA。数据库可以在http://research.imb.uq.edu.au/RNAdb/上找到,可以通过许多标准进行搜索。它包括microRNAs和snoRNAs,但不包括基础RNA,如RNA和tRNAs,它们在其他地方被编目。该数据库还包括1100多个推测的反义ncRNA和近20000个推测的ncRNA,这些推测的ncRNA都是在高质量的鼠和人cDNA文库中鉴定出来的,而且在不久的将来还会增加。这些RNA中有许多是大的,许多是拼接的,有些是交替的。该数据库将为RNomics的新兴领域以及ncRNA在哺乳动物基因表达和调控中的作用的表征奠定基础。
以下为其他研究者总结归纳:
LincRNAs identified by Khalil et al
长干预非编码RNA (lincRNAs)是由哺乳动物基因组中数千个位点转录而成的,可能在基因调控和其他细胞过程中发挥广泛的作用。本文概述了对脊椎动物lincRNA的新认识,重点介绍了它们是如何被识别的,以及目前关于它们的基因组学、进化和作用机制的结论和问题。Khalil等人通过在已知的蛋白编码位点外寻找染色质甲基化区域(H3K4me3和H3K36me3),鉴定并鉴定了3289个大的基因间非编码RNA (lincRNAs)。通过将这些染色质状态数据映射到转录组数据库,消除所有注释的非lincRNA转录本(如注释的蛋白编码基因、RNAs和tRNAs),并评估其编码潜力,Khalil等人描述的2193个lincRNA被纳入Arraystar Human LncRNA Microarray V4.0。
LincRNAs identified by Cabili et al
Cabili等人利用他们的RNA测序结果和公共数据库信息定义了超过8000个人类lincRNA基因的参考目录。从4662个严格定义的人类lincRNA基因中鉴定出14353个转录本。这些lincRNA中有6969个转录本被Arraystar Human LncRNA Microarray V4.0覆盖。
LincRNAs identified by Iyer et al. & Clark et al.
Clark等人使用CaptureSeq极大地提高了RNA-seq的覆盖率,支持78个组织样本中16453个lncRNA转录本的鉴定。Iyer等人整合了来自25个独立研究的7256个RNA-seq数据,包括TCGA、ENCODE等,得出58648个lncRNA。其中20,142个LncRNA被Arraystar Human LncRNA Microarray V4.0覆盖。
Ultraconserved regions encoding LncRNAs (T-UCRs)
超保守区(UCRs)是长度大于200nt的基因内和基因间序列,在人类、小鼠和大鼠中100%相同。Bejerano et al.鉴定了481例人类ucr。大量的ucr转录一个lncRNA子集,即t - ucr,这些lncRNA在几种人类癌症中异常表达。所有t - ucr均在Arraystar人类LncRNA芯片V4.0上显示。为了帮助发现来自这些区域的潜在非编码转录本,我们还设计了962个探针,针对这些ucr的两条链(http://users.soe.ucsc.edu/~jill/ultra.html)。
HOX loci LncRNAs (HOX LncRNAs)
HOX集群基因是动物发育过程中模式和轴形成的基本调控因子。Rinn等人在人类的四个HOX位点中鉴定了407个转录区域(101个HOX基因外显子,75个内含子和231个基因间ncRNA转录本)。Arraystar人类LncRNA微阵列V4.0上的探针瞄准了所有这些不同的转录区域。此外,68个潜在的LncRNA被Arraystar Human LncRNA Microarray V4.0覆盖,这些LncRNA的转录单元(TUs)在相同或反意义基因组链上重叠HOX簇基因。
LncRNAs with Enhancer-like Function (LncRNA-a)
使用人类GENCODE注释,Orom等人从2,286个独特的基因[11]中鉴定出3,019个具有增强子样功能的人类lncRNA。具有增强器样功能的LncRNA被包含在Arraystar Human LncRNA Microarray V4.0中
参考文献
1. Pruitt K.D. et al. (2014) RefSeq: an update on mammalian reference sequences. Nucleic Acids
Res, 2014. 42(Database issue):D756-63
2. Hsu, F., et al., The UCSC Known Genes. Bioinformatics, 2006. 22(9): p. 1036-46.
3. Harrow, J., et al., GENCODE: producing a reference annotation for ENCODE. Genome Biol, 2006. 7 Suppl 1: p. S4 1-9.
4. Pang, K.C., et al., RNAdb 2.0--an expanded database of mammalian non-coding RNAs. Nucleic Acids Res, 2007. 35(Database issue): p. D178-82.
5. Dinger, M.E., et al., NRED: a database of long noncoding RNA expression. Nucleic Acids Res, 2009. 37(Database issue): p. D122-6.
6. Quek X.C. et al., lncRNAdb v2.0: expanding the reference database for functional long noncoding RNAs. Nucleic Acids Res. 2015. 43(Database issue):D168-73
7. Khalil, A.M., et al., Many human large intergenic noncoding RNAs associate with chromatin-modifying complexes and affect gene expression. Proc Natl Acad Sci U S A, 2009.106(28): p. 11667-72.
8. Cabili, M.N., et al., Integrative annotation of human large intergenic noncoding RNAs reveals global properties and specific subclasses. Genes Dev, 2011. 25(18): p. 1915-27.
9. Bejerano, G., et al., Ultraconserved elements in the human genome. Science, 2004. 304(5675): p. 1321-5.
10. Rinn, J.L., et al., Functional demarcation of active and silent chromatin domains in human HOX loci by noncoding RNAs. Cell, 2007. 129(7): p. 1311-23.
11. Orom, U.A., et al., Long noncoding RNAs with enhancer-like function in human cells. Cell, 2010.143(1): p. 46-58.
12. Pang, K.C., et al., RNAdb--a comprehensive mammalian noncoding RNA database. Nucleic Acids Res, 2005. 33(Database issue): p. D125-30.
13. Mercer, T.R., et al., Specific expression of long noncoding RNAs in the mouse brain. Proc Natl Acad Sci U S A, 2008. 105(2): p. 716-21.
14. Guttman, M., et al., Chromatin signature reveals over a thousand highly conserved large non-coding RNAs in mammals. Nature, 2009. 458(7235): p. 223-7.
15. Benson, D.A., et al., GenBank: update. Nucleic Acids Res, 2004. 32(Database issue): p. D23-6.
16. Clark, et al.Quantitative gene profiling of long noncoding RNAs with targeted RNA sequencing. Nat Methods, 2015. 12(4): 339-342.
17. Iyer, et al. The landscape of long noncoding RNAs in the human transcriptome. Nat Genet 2015.47(3): 199-208.