原文: Microarray is an efficient tool for circRNA profiling
译者: jinwen@bioinfo
相信大家已经对环状 RNA 已经有一定的了解,如果还没入坑,请查阅漫话circRNA。看到题目,大家心里肯定有疑惑,RNA-seq 测序物美价廉,现在谁还在用芯片啊?!据我了解,公司的芯片产品根本都没有利润,转录组芯片已被测序碾压,目前只有甲基化与拷贝数变异的芯片仍保持着一定的优势。我也是抱着同样的疑问阅读了全文。
其实看到文章的题目,我忍不住查阅了一些资料——不得不吐槽,关于芯片的资料似乎被互联网雪藏了,基本查不到太多有效信息。这里展示一下 RNA-seq 相对于芯片的优势,下面列举几个主要的:
检测的物种多样,无需参考基因组
能够检测新的转录本,研究可变剪切以及非编码 RNA 的利器
能够对原始数据再次分析,另外,设计扩展性非常强
然而,RNA-seq 的许多优势是建立在不考虑成本的前提下的。做过测序的同学都知道,目前测序公司给出的双末端常规测序规格是 ~30 million reads / per sample ,这也是 ENCODE 给出的检测 lncRNA 的测序深度;但这样的测序深度常常只能获得比较突出的 lncRNA 的表达活性,对于表达比较低的 lncRNA,我们必须增加测序深度,这往往会付出更多的成本。同时,也有文章指出,RNA-seq 检测 lncRNA 的表现比芯片要差。
实际上,对于表达量相对较高的 mRNA 来说,RNA-seq 与芯片的检出率都差不多;但对于低丰度的 RNA 分子(例如 lncRNA),由于 RNA-seq 存在更多的随机变异(例如序列扩增的偏好性,样本的不稳定),检出率以及表达量往往让人失望。
circRNA 表达丰度更低,常规测序+生信识别算法获得的 circRNA 往往有限;在我遇到的项目中,如果样本是血浆或者外泌体,往往会出现 circRNA 屈指可数、表达 counts 不超过一个巴掌的情形。这到底是不是生物体内的真实情况无法确定,但后续研究如何进行确实让人束手无策。
那么芯片在检测 circRNA 方面是否有其独特的优势呢?
无法知道作者是如何定义了这样一个主题,文章的 RNA-seq 测序实际上也检测到了大量 circRNAs。原文题目为: Microarray is an efficient tool for circRNA profiling,落脚点是 circRNA profiling,我的理解是 circRNA 图谱,即强调 circRNA 的检出率更高。至于检测到的 circRNA 是否真实,作者用自己的数据表示,和 RNA-seq 差不多。文章实际上有配对数据,又有不同时间点的数据,还有血浆的数据,最终却没有讨论一个生物学问题,我认为是比较遗憾的。
为了评估芯片检测 circRNA 的性能,作者定制了一批 circRNA 芯片:
探针设计:circBase 中 87935 个 circRNA 基因组位点的头尾(5’ 端/3‘端)拼在一起,分别定制包含 back-splice 位点的 30nt 探针(具有高的检测信号)与 20nt 探针(具有较强特异性)——为了检出率,最后选择了 30nt 探针用于分析。同其他芯片一样,设计 control 探针。
为何选择 circBase
circBase 中的 circRNAs 基本上都是首次被检测到的,这些分子往往表达较高,容易被捕获到
芯片分析:GeneSpring V12.0(Agilent) 用于获取 circRNA 信号并进行质控,随后用 normalize quantiles 方式进行组间标准化,最后取 log2。差异表达分析方法为 Student's t-test, 差异标准为 fold-change >=2, BH校正 FDR < 0.05。
用这样的芯片,作者分别对标准 RNA 库(UHRR, universal human reference RNA)、配对的宫颈癌与癌旁正常组织以及肿瘤摘除前后的血浆样本进行了检测。另外用相应的 RNA-seq 数据进行了比较。
文章最后的结论表示:
circBase 中的 circRNAs 大部分都能被芯片检测到,比 RNA-seq 高出了几倍到十几倍
绘制 circRNA 图谱,微阵列芯片比 RNA-seq 更有效、开销更少
文章证实了宫颈癌中 circRNA 的表达,并提供了 41 个芯片以及 10 个 RNA-seq 数据资源
之前也提到了,在血浆以及外泌体样本检测中,RNA-seq 获得的 circRNAs 非常之“稀少”;根据该文的阐述,用芯片代替 RNA-seq 进行 circRNAs 的研究(包括寻找差异表达 circRNAs)是非常好的策略。
文章总共 9 个结果,反复呈现比较结果而没有更新颖的论点,有点堆砌的感觉,我对它进行了总结:
芯片用于检测全基因组 circRNA 非常有效,在 UHRR 样本中,芯片的检出率非常高——77370 / 87935 能被检测到,而对应的 RNA-seq 只检测到了 6477 个。
一些 circRNA 的宿主基因没有表达,但 RT-qPCR 能够验证,同时凝胶电泳的 circRNA 长度与预测的一致。
弱信号(信号值处于信号强度的下四分位数)的 circRNA 能够被 RT-qPCR 验证。
对宫颈癌及癌旁正常组织(10个病人)进行芯片测序发现了 80988/87935 个 circRNAs,而 RNA-seq 只检测到了 10234 个。差异表达分析发现大量差异表达的 circRNAs,对其宿主基因进行功能富集分析表明这些 circRNA 与癌症密切相关。另外,RT-qPCR 验证随机挑选差异 circRNAs,其中 78.6%(11/14) 被证实,这与 RNA-seq 的准确性相似。
有观点认为 circRNA 是线性 RNA 分子加工的副产物,作者通过比较发现,许多 circRNAs 的表达并不依赖于宿主线性 RNA,这与之前一篇文献的结论一致。
宫颈癌病人血浆中检测出了大量 circRNA(18293个),而在这之前,只有很少的人在无细胞(cell-free)样本中检测到 circRNAs——一篇报道了 19 个,另一篇报道了 ~1000 个。
肿瘤摘除前后大量血浆 circRNAs 被发现差异表达,而在肿瘤组织中高表达的 circRNA 却在血浆中下调。这些下调的 circRNAs 能够有效地区分术前和术后样本,并且能够区分无疾病生存期样本,表明它们可能具有作为预后标志物的潜能。
这里是分割线~
RNA-seq 检测 circRNA 的两大缺陷:
对 circRNA 认定的方式是 back-spliced junction,而这些 reads 只占 RNA-seq 所有 reads 中仅仅只有 ~0.1%,也就是说其他 ~99.9% 的信息被浪费掉了;
另外,常规测序深度会使许多地丰度的 circRNA 损失掉。
而芯片由于是针对性地靶向 back-spliced junction 部分,因此理论上只要 circRNA 表达都能被检出。
样本:UHRR(Universal Human Reference RNA), BHRR(Ambion's Human Brain Reference total RNA)
RNA-seq: rRNA deleted, RNase R+
检出率比较
如图 1B 所示,芯片获得了 77370(总共 87935)个 circRNAs,而 RNA-seq 在 20M 的测序深度下只获得了 6477 个。
RT-qPCR 验证
芯片验证率为 74%(20/27随机挑选),而 RNA-seq 为 75%(21/28)。
技术性重复率
差异表达分析
如图 1H 所示,芯片检测出了大量在 HBRR 以及 UHRR 特异高表达的 circRNAs,而 GO 功能分析表示 HBRR 特异高表达 circRNA 的宿主基因与神经特异性相关。
芯片发现 UHRR 样本中一些 circRNA 的宿主基因的 mRNA (RNA-seq 检测)几乎没有表达(FPKM < 0.01)。为此,通过对宫颈癌组织一个样本的 RNA-seq 进行评估发现了相似的结果。随后随机挑选了 5 个 circRNA,利用 RT-qPCR 在 10 个 RNase R 处理的宫颈癌样本中进行检验,并用凝胶电泳检测了这些 circRNA 的大小,结果和预期一样,说明了这些无 mRNA 表达的宿主基因确实转录出了 circRNA 分子。
为了检验弱信号强度的 circRNA 是否是假阳性,随机选择的 6 个弱信号强度的 circRNAs 被 RT-qPCR 在 RNase R +/- 样本中扩增出来,并且凝胶电泳检测的 circRNA 长度与预期一致。除此之外,在 UHRR 以及 10 个宫颈癌样本的 RNA-seq 中也同样检测到了芯片中的弱信号强度 circRNAs。
芯片在 10 个病人的宫颈癌及癌旁正常组织中平均检测到了 80988 个 circRNAs(范围为 80076-82680),比 RNA-seq 以及之前的报道检测的更多;另外 5 个病人 RNA-seq(rRNA-depleted, RNase R +) 检测到约 10234 个 circRNAs(范围为 7533-14310,back-spliced junction >= 1,测序深度为 50M)或 7351 个 circRNAs(范围为 6060-10028, back-spliced junction >=2)。再次证明了circRNA 图谱用芯片非常有效。
其中差异表达(fold-change >=2, student's t-test fdr < 0.05) circRNA 数目统计如下:
在所有样本中都差异表达的 circRNA 有 4919 个。
通过 RT-qPCR,随机挑选的 14 差异表达 circRNAs 有 78.6%(11/14) 被证实。对差异表达 circRNA 的宿主基因进行功能富集分析表明,这些 circRNAs 与癌症密切相关,例如 cell cycle 和 cell migration。而一些差异表达 circRNAs 的宿主 mRNA 在病人中高表达,这些病人的无疾病生存期(disease-free survival)显著较差,进一步表明了这些差异表达 circRNA 与癌症的关系,暗示了其作为宫颈癌生物标记的可能。
有研究表明一些 circRNA 是通过前体线性 RNA 加工而成,一些研究者在RNA-seq 检测中往往利用 circRNA 与线性RNA的比率(CLR)表示 circRNA 的表达活性。但这种方式却不适合芯片,这是因为芯片的信号并不是真实反映 RNA 的分子数,而探针的杂交效率也有差异。为此,我们将 CLR 修改为相对 CLR(rCLR),公式为
在宫颈癌与正常样本分析中,大多数 circRNA 的 CLR 与线性 RNA 呈负相关,该结果与之前一篇脑发育一致(如下图 B)。
另外,根据统计,有许多 circRNA 的表达改变与宿主线性 RNA 之间并无关联。总的来说,许多 circRNAs 的表达并不依赖于宿主线性 RNA。
许多基因都能产生多个 circRNA 转录本,通过观察,有很大一部分(37.8%)来自同一宿主基因的 circRNA 转录本的 rCLR 显著不同,这表明来自同一宿主基因的 circRNA 转录本具有不同的表达活性。
到目前为止,几乎没有研究报道无细胞(cell-free)的样本检测出了 circRNAs,只有一篇在血浆中检测出 19 个 circRNAs 和一篇在血清外泌体检测出约 1000 个 circRNAs 的报道。对 8 个癌症患者的 21 个血浆样本进行芯片检测,我们发现了平均 18293 个 circRNAs(范围 16185-18954)。
circ_0032570 在 8 个血浆样本中获得了 PCR 的证实,另外,随机选择的 3 个样本的 sanger 测序也表明了该 circRNA 的存在。
血浆中的 RNAs 一般来说都会被完全降解,除了 miRNA 太短而足以酶的处理,然而就算是 miRNA 在血浆中也仅仅发现了数百个。在血浆中检测到如此规模的 circRNA 很可能揭示疾病相关的分子标志物用于临床。
为了探究血浆 circRNA 是否与癌症进展关联,我们进行了肿瘤摘除前后血浆 circRNA 的差异表达分析,结果发现了平均 2787 个 circRNAs(范围 526-8751)差异表达,许多下调的血浆 circRNA 在肿瘤组织中上调(见图E)并且其中一些表达在术后保持持续减少(如图 F)。
另外,层次聚类表明 866 个下调的 circRNAs 能够区分术前和术后的两组样本。通过特征选择,11/866 个 circRNAs 就足以区分两组样本。
为了探究 866 个 circRNAs 是否包含一些预后标记,我们根据宿主基因 mRNA 的表达水平挑选出了一些用于无疾病生存期的 K-M 分析,最后有 74 个 circRNA 能显著地区分两组的临床差异(log-rank p < 0.05),另外包含 48/74 高表达宿主基因的病人具有糟糕的无疾病生存期。
这些结果表明血浆 circRNAs 可以很好地反映宫颈癌术后过程,并且展示了 circRNA 作为癌症检测或监测的非侵入性生物标记的可能。
有生信分析请留言
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史