大家周末愉快呀,今天给大家分享的是一篇关于通路信息收集的文章。GENOME BIOLOGY (IF: 10.806)
Pathway information extracted from 25 years of pathway figures
收集整合25年的通路图知识
摘要:
每年有成千上万的通路图(pathway diagrams)被发表出来,而这些通路图由于是静态图形导致无法进行计算查询和分析。本文通过结合机器学习、OCR文字识别和人工校正,识别了1995年至2019年间发表的64643个路径图,并提取了1112551个人类基因,包括参与了多种生物过程的13464个非重复NCBI基因。这个集合代表的基因比同一篇论文的文本发现的基因多一个数量级,并且其它通路数据库中缺失了这个集合的上千个基因,从而为发现和研究提供了新的机会。
背景:
生物学的分子机制通常被概括为通路图。在科学文献中,通路图是传播已发表作品的顶峰,它将跨越数十年的各种来源和类型的数据综合成一个连贯的模型。尽管通路常只作为静态图像发布,但它表达了动态的交互作用。常见的例子包括代谢周期、基因调控和信号级联。当适当地将其建模为交互网络并用标准标识符进行注释时,可以以适合于计算分析的格式更精确地传达通路知识。与静态图像不同,通路模型可用于富集分析,增强数据可视化、知识图谱、生物医学推理和数据库查询。在过去的几十年里,许多通路数据库,包括GenMAPP、metayc、KEGG和Reactome承担了管理经典通路图的生物学挑战,每个数据库都有自己独特的重点和方法。WikiPathways采取了更广泛的社区策划方法,以允许任何研究人员建模和自由共享其通路知识。我们估计,近年来,PubMed Central(PMC)每月会索引1,000条通路图,但其中不到3%来自通路数据库。
在这项研究中,我们确定了过去25年中发表的通路图,并通过光学字符识别(OCR)根据公认的基因符号对它们的内容进行了表征。虽然从摘要和论文正文中提取基因和其他生物学概念(包括相互作用)更为常见,但从已发表的通路图中提取知识却相对较少且不完整。在对4000个通路图的初步研究中, 我们开发了一个定制的OCR管道,并鉴定出了两倍于PubTator在文本中检测到的人类独特基因。从有限的通路图样本中提取的基因和WikiPathways数据库内容的三分之二相同,并包含了1000多个以前没有在通路模型中注释过的人类基因。值得注意的是,在这组4000个通路图中,没有两条路径是相同的。大量新颖多样的通路知识基本上被困在已出版的通路图中。
这项工作的目的是全面收集已发表的通路图中鉴定人类基因的内容,表征其生物学相关性,并增加其意义。从过去25年的出版期刊中发现了65000个通路图,其中总共有超过一百万个人类基因。在13.5万个独特的人类基因中,超过四分之一的基因尚未在WikiPathways或Reactome数据库中注释。利用基因本体论和广泛的疾病本体论,通过对注释基因集进行富集分析,并评估已鉴定基因集的生物学相关性。
内容(content)
我们确定并描述了1995年至2019年间发表的64643个通路图。从PMC数据库按照25年范围和关键词条件筛选到与通路有关的图片共有235081个,机器学习被应用于更精确地区分包含分子相互作用的图形和描述其他类型通路的图形。
仅依靠线性排序PMC结果(即无需后续机器学习步骤),就可以得到一组相对稀释的数字,其中包含大量非通路的图。两轮机器学习后能有效地获取准确的通路图。第二轮依靠一组由领域专家手工分类的15406个图片来训练一个模型,将通路图片与其他图片区分开来,精确度为91.88%,召回率为91.88%,马修斯相关系数(Matthews Correlation Coefficient)为0.82。64643个通路图的结果集被定义为我们在本研究中使用的“65k set”。通过手动对300个随机样本进行分类,最终评估“65k set”通路图集合由94%的通路图组成(±3% at 97% confidence)。
包含通路图的论文
通路图来自56095篇论文,由216542位不同的作者撰写,发表在3453种期刊上。显然,并非所有的合著者都参与了一篇论文中通路图的制作,但作为比较,WikiPathways数据库作为通路知识方面最成功的数据库只有不到800个作者参与。
包含通路图的论文可以通过论文级注释来表征,例如欧洲PMC的疾病本体术语和PubTator在文本中识别的基因。包含至少一个来自欧洲PMC疾病本体术语注释的论文(含有通路图)一共有29,187个(占比52%)。在这些论文中,最常见的10个疾病本体术语是癌症(占29187篇论文的39%)、感染(19%)、缺陷(15%)、肿瘤(9.3%)、糖尿病(4.3%)、缺氧(2.0%)、抑郁(1.3%)、肥胖(0.8%)、缺血(0.7%)、动脉粥样硬化(0.4%)和其他(9.2%)。PubTator通过自然语言处理从PMC索引论文的摘要和从正文中提取基因。尽管图形标题可能包含基于文本的方法中,但图形图像却不包含在内,因为它们需要在实体识别之前进行OCR和自定义规范化。根据PubTator的数据,包含通路图的论文中至少有一个基因的论文数量为30036篇(占53.5%)。在这些论文的正文中发现的前10个基因是AKT1(5.4%)、MTOR(4.1%)、TP53(3.7%)、MAPK1(3.5%)、TGFB1(2.8%)、PIK3CD(2.8%)、EGFR(2.6%)、TNF(2.4%)、CTNNB1(1.9%)和MAPK3(1.7%)。这些基因大多与注释的主要疾病的癌症相关生物学过程(cancer-related biological processes)相匹配。在通路图论文集合中,癌症的患病率通常比PMC的论文集合的患病率高,估计为12%。这种偏倚可能反映了通路图在描述与癌症相关的信号传导和代谢过程中的流行性和特殊有效性。这也可能是由于用于构建原始PMC查询的通路本体的偏见所致,例如 “癌症通路”该词汇。
通路图中的基因
在确定并描述了一组包含通路图的论文后,本研究的主要目标是通过为通路图定制的OCR管道提取其人类基因。通过图像分类确定的64643个通路图,通路图OCR管道(pipeline)识别具有至少一个人类基因的通路图有58962个(占91%)。总共识别出1112551个人类基因实体,其中包括13464个单一的NCBI人类基因。平均而言,每个通路图可识别出18.9个基因,而PubTator在同一论文中仅可识别出3.4个基因。在通路图中,排名前10位的人类基因是MAPK1(15%)、AKT1(14%)、PIK3CA(10%)、NFKB1(8.9%)、KRAS(7.6%)、MTOR(7.5%)、MAP2K1(6.2%)、TNF(5.6%)、RAF1(5.3%)和TP53(5.1%)(图1)。与从含有通路图论文的文本提取的基因比较,两者基因集排名靠前的基因都与肿瘤相关的生物学过程相关。在包含通路图的论文中,通路图中前10的基因包括了文本的前5个基因的其中4个:MAPK1,AKT1,MTOR和TP53。与通路图数据库相比,从通路图提取的基因有超过四分之一的基因在WikiPathways数据库或Reactome数据库中找不到。显然,通路图代表的生物学模型并未在论文的文本中进行全面描述,也不存在于标注好的通路图数据库中。
图 1
通路图中的基因组
为了在覆盖范围,性能和可解释性方面进行优化,我们定义了一个至少有7个不同NCBI基因的通路图子集。与整体相比,28836条通路图子集包含13216(98%)个独特基因,因此保留了通路图集合的覆盖范围和新颖性。在这28836个通路图中,通过富集分析,有28520个(99%)与至少一个基因本体(生物过程)术语显著相关,具有普遍的生物学相关性。在疾病相关性方面,我们发现20227(70%)通路图与至少一个疾病本体论术语显著相关,并且本体论中98%的疾病术语(157/160)会出现在一个或者多个通路图中。通过人工检查论文和通路图标题,确认64种不同的疾病术语可以为8419个通路图进行准确注释。除了癌症,流行的术语还包括心肌病、肺癌、黑色素瘤、乳腺癌、类风湿性关节炎、糖尿病和神经退行性疾病。从通路图中提取的基因信息可以通过对任何基于基因集的本体或资源(例如基因本体论,OMIM,MSigDB或其他途径数据库,如WikiPathways和Reactome)进行富集分析来注释文献。
实用(Utility)
对已发表的通路图及其基因的初步分析发现了与通路图相关的新资源,这是研究人员几乎无法获取的。下面的示例将演示如何在各种应用程序中利用此资源。
检索科学文献
去年PMC新增了60多万篇论文,研究人员只能通过搜索引擎、提要、订阅和推荐来抽样研究与他们最相关的工作。虽然图形的标题可以通过基于文本的处理和索引来访问,但是图形的实际内容对任何常用的搜索引擎都是隐藏的(如PubMed, PMC, Europe PMC,Google)。通路图中基因的系统识别使我们能够通过新的和现有的工具访问这些内容。
文献检索工具
搜索引擎通常根据摘要,正文和标题文本中的基因对论文进行索引(如Europe PMC:https://europepmc.org/annotations)。然而Europe PMC基于文本的处理包含人工标注对基因和论文映射的关系,因此可以利用相同的概念获得基因与图片的映射关系。在Europe PMC查询一个或多个基因,将返回包含这些基因的文本和图形。
另一个例子是,Chan Zuckerberg正在开发一项新的文献信息服务,名为Meta (https://meta.org;公开测试中),用来每天处理最新的出版物和预印本。通路图的基因-论文映射将是一个不错的索引系统。此外,可以提供从论文-疾病本体和基因-通路的映射。最后形成一个可以生成包含相关通路图的论文索引系统。
交互式通路图应用程序
我们使用R Shiny(https://gladstone-bioinformatics.shinyapps.io/shiny-25years)制作了一个在线工具,可以根据丰富的疾病术语,基因,日期信息来过滤,搜索和查看65000个通路图的完整集合(图2)。第一部分为三个阶段,提供自动完成字段,基于“OR”原则的过滤器,检索疾病、基因和出版年份,并分别显示前40个疾病本体术语、前40个人类基因和出版日期的条形图。第二部分显示当前已过滤的一组通路图的分页表格,每一行代表一个通路图及相关的文献。列可用于在表中排序和查询,以进一步细化当前集。在表格中选择一行将更新第三部分,显示通路图、PMC链接和已识别基因表。作为该工具的专题演示,制作了第二个版本,重点关注COVID-19开放研究数据集(https://gladstone-bioinformatics.shinyapps.io/shiny-covidpathways)定义的COVID-19相关路径。此集合中有221个通路图,可以通过上述相同的三阶段过程快速查询和查看。作为COVID-19 Disease Map (https://covid.pages.uni.lu/map_curation)的一部分,该工具已被证明在WikiPathways (http://covid.wikipathways.org)上构建SARS-CoV-2通路非常有用。
图 2
知识图谱查询路径
注释路径信息的来源也在分布式知识集成(distributed knowledge integration)的高级平台中找到了实用性。BioThings Explorer平台包括一组API,它们在语义上定义了组成知识图的输入和输出(https://biothings-explorer.readthedocs.io)。该平台还包括一个引擎,支持在图中进行通路的查询,例如,查找针对感兴趣疾病相关通路的药物。通过定义一个API来识别基于通路图的基因集,有110万个基因论文可以用于知识图谱构建,疾病注释等其它提取的内容也会补充到知识图谱的构建。这项工作作为NCATS Biomedical Data Translator项目的一部分正在积极开发中,其可以用于药物再利用的预测(https://ncats.nih.gov/tidbit/tidbit_04.html).。
科学发现史
考虑到这个新的通路图资源有25年的时间跨度,自然要反思通路图在科学发现中的作用。前面描述的R Shiny应用程序可以被任何研究人员或历史学家使用,从通路的角度来查询特定疾病和基因的历史。以追踪Hippo信号通路的发展为例进行说明(图3)。
图 3 Hippo信号通路发展的主要里程碑
Hippo信号通路通过调节细胞增殖和凋亡来控制动物器官的大小。Hippo信号通路的组成部分高度保守,许多早期发现是通过果蝇的基因筛选获得的。Hippo信号途径包括一个中央激酶信号级联,其中MST1/2(Hpo)磷酸化LATS1/2(Wts),从而激活它。活化的LATS1/2磷酸化YAP/TAZ(Yorkie/Yki),导致其在细胞质中失活和降解。当激活时,YAP/TAZ转移到细胞核并与包括TEADs在内的多种转录因子结合,导致增殖和存活基因的转录。LATS1/2的磷酸化通过与SAV和MOB1结合而促进。Hippo通路可通过上游调控因子WWC1 (Kibra)、NF2等多种刺激被激活。已知Hippo与多种信号通路相关,包括TGF- β、Notch和Wnt信号通路。Wts基因(人类的LATS1)于1995年在果蝇中被发现,2003年首次提到涉及Wts、Sav和Hpo的通路,最初被称为Salvador/Warts通路。2003年以来,一系列的发现进一步明确了通路成分。在我们的65000通路图集合中,第一次发表的Hippo信号通路图出现在2007年,这是在Wts基因首次被发现后十多年 (图3)。早期发布的通路图是稀疏的,有些甚至包含了未知成分的问号。在某些情况下,独立出版物中的通路图会发现新的特定组分,之后会把这个成分加到通路上。例如,2012年发现PTPN14与YAP结合,于是2013年出现了二者相互作用的通路图。另一个有趣的观察与Kibra基因(人类中的WWC1)有关,该基因在2003年首次在酵母双杂交筛选中被鉴定。在多种环境下(细胞骨架、记忆功能等)对其进行了研究,2010年,Kibra被证明是Hippo通路的上游调节因子。有趣的是,在2010年之前,Kibra的通路图是没有的,但从2010年开始,Kibra在内的通路图稳步增长,其中绝大多数是Hippo通路。Yorkie(人类中的YAP/TAZ)在2005年首次被指出是Hippo途径的转录激活因子,随后发现S127处YAP的磷酸化通过将YAP保留在细胞质中而抑制转录活性。在这些重要发现之后,2008年第一个通路图显示了YAP/TAZ信号转导的细节。
对通路图及其基因的获取提供了一种新的方法来跟踪特定通路的关键分子以及它们之间的相互作用,并且这些通路图的数据很多都早于通路数据库。以Hippo通路为例,在该通路于2012年首次收录到数据库(https://reactome.org/content/detail/R-HSA-2028269)之前的13年间,已有31篇发表的文献对该通路进行报道。即使出现了通路图数据库,但数据库的更新往往会滞后几个月或者几年,甚至永远不更新,而本次课题开发的通路图OCR pipeline 可以从刚发表的文章中获取通路知识。在下一节中,还将使用此示例演示首次以计算格式访问此历史记录的实用程序,从而支持集群、可视化和其他应用程序。
所有通路趋势和它们的基因含量也可以进行探索。例如,通过从OMIM数据库收集的数据,可以确定一个基因从最初克隆到它在一个通路上第一次出现的时间跨度。在Wts(人类LATS1/2)基因和Hippo信号通路的十年中,所有13464个基因的克隆到通路的时间跨度中位数为12年。相比之下,基因初始克隆及其首次生化特征表征所花费的时间中位数也为12年。
通路图富集分析
65000个通路图包含了比任何通路数据库更独特的人类基因和更大的上下文深度,为通路分析提供了新的资源。然而,为了使集合能够用于富集分析,如过度表达和基因集富集分析,还需要考虑基因内容和冗余等方面。尽管某些方法对基因集大小的富集分数进行了标准化,但对于非常小或非常大的基因集,这个过程并不准确。虽然在通路图的基因集中,不会存在非常大的基因集合,但大约有一半的通路图的基因集少于10个。规定通路图中至少含有10个独特的基因作为筛选条件,可从65000个通路图中筛选到 32277(49%)个通路图用于富集分析。相比之下,在PubTator识别结果中只有1072篇(1.9%)的论文在正文中包含了10个或更多的基因。同时,用于富集分析的32277个通路图中,有878个图与至少一个其他通路图共享相同的基因,4937个通路图完全包含在一个或多个其他通路图中。
为了更详细地评估通路图之间的冗余性和层次结构,我们通过基因重叠聚类了55个Hippo信号通路图(图4)。计算每对基因集之间的重叠(交叉/基因集中的基因数)和Jaccard指数(交叉/联合)。在这个集合中没有两条通路是相同的,但是许多通路图包含较小通路图的内容,类似于基因本体中生物过程术语的嵌套。例如,“Core”簇(红色)是包含Hippo信号通路基因的四个小的通路,这是这组通路图中所有通路的重要组成部分。“Meta”簇(紫色)是将多种通路与Hippo信号联系起来的25个大的通路图。尽管这个簇的相似性要低得多,但是沿着对角线的一些明亮的子簇表明了这一组路径图之间的相互重叠。“Plus”簇(绿色)是26个小到中等大小的通路图,只包含几个与核心Hippo信号通路相互作用的额外基因。
图 4
进行富集分析的目的是:这些途径中的任何一条都有可能提供一个高度特异的结果,比单一的,所谓的规范的,Hippo信号途径具有更大的上下文和解释性。这种可能性反对对通路图集进行额外的预过滤。此外,许多富集工具已经使用了对结果进行过滤,例如,通过Jaccard距离度量来处理具有更大冗余和更高嵌套程度的本体。同样的方法可以选择性地应用于这些基于通路图基因集的富集结果。
构建过程(Construction)
收集通路图
构建一个PMC图像查询URL,指定从1995-01-01开始。查询先前确定1995年为第一年,路径图索引。关键词筛选,pathway或者与pathway的组合词汇:signaling, signaling, regulatory, disease, drug, metabolic, biosynthetic, synthesis, cancer, response, cycle。这些是基于探索性查询和引用前两级通路本体术语确定的。这个查询返回了235000多个图像,这些图像是由一个HTML-scraping脚本检索的,结果包括与图形相关论文的元数据:PMCID、论文标题、论文引用、出版年份、图形文件名、图形URL、图形编号、图名和图形标题。对该结果进行筛选,以确定结果是在1995年1月1日至2019年12月31日这25年期间的唯一条目。值得注意的是,虽然查询是在2020年1月31日进行的,但2019年的结果预计不会完整,因为许多期刊可能要等6个月到一年才能公开其内容。
局限性
Web获取PMC图像查询的结果是低效和不精确的。由于关键字列表和数据库索引不完整,结果中可能缺少许多通路图。同时,查询结果中包含了许多非通路图。对PMC提供的图像给定的排名顺序,我们手动检查了实际通路图在三个点上的百分比:前一千个图(共235000)包含66.3%的通路图,中间一千个图包含35%的通路图,最后一千个图包含少于10%的通路图(图5a)。 因此,来自PMC查询结果的顺序提供了信息,但不足以区分通路图和非通路图。
图 5
通路图分类
为了正确识别PMC图像查询结果中的路径图,使用Google Cloud AutoML Vision进行了两轮机器学习。第一个模型是在PMC查询结果排序的基础上,从高、中、低三个相关性范围中选择2000个人工分类的图形进行训练(图5a,dots图)。将提供的数据随机分成三组:80%训练集、10%测试集和10%验证集。手工分类是由领域专家根据他们自己的有机神经网络(又称大脑)进行的,该网络经过15年在生物医学研究中创建、管理和使用通路图的经验训练而成。在这个基于OCR的项目中,如果图片描述了一个生物过程或一组涉及可识别基因和蛋白质的相互作用,那么该图片就被认为是通路图。因此,分子相互作用网络和发育过程被包括在内,而没有基因名或蛋白质的细胞图则被排除在外。第一个模型具有88.42%的准确率和91.3%的召回率(50%置信阈值)。然后将该模型应用于235000个图片的完整数据集,以获得通路可能性得分(图5b,solid line)。从分数的分布中进行抽样,并进行人工分类(图5b,dots)。超过阈值(红线)的总实际通路含量估计为85%。考虑到这些结果,第二个模型在15406个人工分类的图形集上进行训练,并在50%置信阈值下获得91.88%的准确率和91.88%的召回率(图5c)。马修斯相关系数为0.82。从第二轮机器学习开始,64679张图的预测为通路图的可能性为50%或更高(红线)。最后,根据先前的手动分类,将383条假阴性通路加回去,去除419条假阳性非通路图,得到本研究中使用的64643条通路图。我们已经将15406条通路和非通路的手工分类要求包含在补充文件中。
局限性
从最终数据集中随机抽取300个图片进行人工分类,以估计实际通路图的比例为94%(±3% at 97% confidence)。18个归为非通路的图中,有2个是合成图,其中包括一个通路中包含大量非通路内容。在我们的手工分类中,合成图通常被排除在“通路”训练集之外,以避免识别与通路无关的图的基因,因此这些被保守地包含在假阳性计数中。剩下的16个非通路中,只有3个有3个或3个以上的基因随后被我们的通路图OCR管道检测到(见下一节),这表明大部分的假阳性可以被有效地忽略。
通路图中的基因鉴定
将这组通路图输入到我们的通路图OCR管道。管道的主要组件包括单词分割、转换和词汇匹配。对OCR输出提供以换行符和空格分隔单词一系列自定义转换。转换包括字符标准化、替换和扩展、纠正常见的OCR错误和通路图中使用非标准基因名。例如,转换会去掉附加在基因符号前面或后面的无关注释(e.g., p-AKT or CDK1-FLAG)并将将数值范围扩展到单个基因符号(e.g., WNT1-5)。在GitHub公有库中的“transforms”目录中包含了本文应用的所有转换。在每一轮转化之后,将尝试与人类基因词典和生物实体进行匹配通路图的表征。
局限性
有三个非复合假阳性通路图包含三个或更多的人类基因:一个带有基因标记的神经纤维图,一个基因命名通路的元网络(如IL-6信号),以及一个包含三个字母的氨基酸(如Tyr, His, Met)的图,这些恰好与基因别名相匹配。前两个通路图虽然在文本中不被认为是通路图,但是依然具有生物学意义。而最后一例是唯一一个有问题的假阳性(即错误地将氨基酸识别为基因)。通路图OCR管道也受到人类基因词汇的限制。许多已知基因数量很少或为零的通路图是针对其他物种的,如果蝇信号通路、酵母网络和微生物代谢。
通路图的表征
从PMC查询网站和web服务中检索了56095篇含有通路图的论文,包括作者、期刊名称、论文名称、论文标识符、出版日期、路径图名称、超链接和标题。29187篇论文的疾病注释可从欧洲PMC获得,并使用europepmc R软件包收集。通过排除先前统计的论文并根据疾病术语频率重新排序,得出了一个非冗余的前10个术语列表。将同一疾病术语的单数和复数形式被归为一类,如“Tumor” and “Tumors”。 在确定了排名前十的出版物之后,剩下的出版物被算作“其他”。PubTator提供了30036篇论文的基因关联,并从PubTator FTP服务下载了NCBI基因到PMID的映射。PMC FTP服务中的PMID-PMCID映射使我们能够与PMCID索引的通路图和提取的基因集进行比较。
通过对提取的基因集与本体相关的基因集进行富集分析,确定路径图的基因本体和疾病注释。疾病注释的来源是DISEASES数据库[30]的“knowledge”通道,该通道过滤了具有7个或更多相关基因的疾病术语,得到了一组总共160个疾病术语和5088个基因关联。