全文赏析|新型肺炎冠状病毒的起源不是中国?
生信干货
苹果派 ·2020年3月3日 22:45
今天小编给大家解析一篇于2020年2月21日发表在预印本上的关于COVID-19起源的文章,文章认为新型冠状病毒可能并非源自华南海鲜市场。我们一起来看一下。

β冠状病毒的特征是囊膜,正义单链RNA,寄主于动物,尤其是哺乳动物。在2019年12月之前,已有4种,HKU1,MERS-CoV,OC43和SARS-CoV会引起严重人类疾病。第五种,一种新的引起人肺炎的β冠状病毒SARS-CoV-2(即COVID-19)首次在中国湖北武汉报道。截至2020年2月19日,SARS-CoV-2已在中国各省/地区以及非洲、亚洲、欧洲、北美和大洋洲等25个国家感染了75000多人,由于SARS-CoV-2能在人与人之间传播,中国春节前大量人口外流增加了感染频率。2020年1月30日至2月16日,每天确诊的感染病例超过2000例,最高的超过15100例,是SARS-CoV感染人数的2倍。SARS-CoV-2是Sarbecovirus亚属的一员,有人认为它起源于蝙蝠,可能是通过非蝙蝠中间哺乳动物(如穿山甲)传播给人类的。武汉市首批41名感染者的医疗信息显示,27名患者与华南海鲜市场有关联。这表明SARS-CoV-2很有可能起源于市场,然后被感染者将其传播给市场之外的其他人。然而,这一结论一直存在争议,因为第一个确定的感染者和其他12人与华南市场没有联系。因此,一些研究人员认为,华南市场不是SARS-CoV-2传播给人类的最初或唯一来源。该市场于2020年1月1日关闭,很难确定SARS-CoV-2的中间动物载体。在缺乏潜在中间信息的情况下,SARS-CoV-2的起源和传播模式仍未得到解决。在这项研究中,使用来自GISAID EpiFluTM数据库(访问日期2020年2月12日)的93个SARS-CoV-2基因组来解码SARS-CoV-2在最近两个月的进化和传播。文章目的是:1)描述SARS-CoV-2的基因组变异;2)推断全球样本的进化关系;3)推断SARS-CoV-2在武汉和武汉以外地区的传播史。为了破译SARS-CoV-2的进化史,从GISAID检索了96个完整的基因组。来自GISAID的基因组EPI_ISL_402131(bat-RaTG13-CoV,下同)被列为外群,因为它是最接近SARS-CoV-2的β冠状病毒分支。使用MAFFT对97个基因组序列进行了比对,使用Geneious对比对进行了手动检查。排除变异位点不明确的基因组。另外在比对中,5'UTR和3'UTR包含缺失和不明确的位点,在下面的分析中排除了这两个区域。然后将该比对导入DnaSP19进行单倍型分析。利用DnaSP结合中性检验(Tajima's D和Fu's Fs),基于恒定种群规模估计种群大小变化。使用Arlequin来检验突然种群膨胀假设,并在不排除突然种群膨胀的情况下计算膨胀参数tau(τ)。我们使用公式t=τ/2u来估计膨胀后的时间(以天为单位)。在公式中,u是每年的累积替换率(对于基因组序列,我们使用公式u=μk来计算,其中μ是每年每个位点的替换率。在本研究中,根据对SARS-CoV-2的最新估计,将替代率设为0.92×10-3替换/位点/年。以bat-RaTG13-CoV为外群,由NETWORK程序生成单倍型的中间连接网络。用IQ-TREE对单倍型进行系统基因组分析。文章分别进行似然映射和类SH近似似然比检验来评估系统发育信息和分支支持度。SARS-CoV-2的基因组大小从29782bp到29903bp不等。排列矩阵长度为29910bp,包括140个可变位点。编码区包含120个替换位点,被分类为58个单倍型。核苷酸多样性(Pi)为0.15×10-3±0.02×10-3(标准差,SD,下同)。单倍型多样性(Hd)为0.953±0.016(SD),Hd变异为0.26×10-3。
在8个编码序列(CDS)区域共发现120个替换位点,即复制酶多蛋白CDS(75个位点,占整个序列的0.35%)、刺突糖蛋白CDS(16个位点,占0.42%)、ORF3(7个位点,占0.75%)、膜糖蛋白CDS(4个位点,占0.60%)、ORF7(3个位点,占0.82%)、ORF8(3个位点,占0.82%)、核衣壳蛋白CDS(11个位点,0.77%,ORF10(1个位点,0.86%),包括79个转换(65.83%)和41个颠换(34.17%)。卡方检验表明,基因组中10个CDS区域的替换位点分布是均匀的(x2=1·958,df=9,P=0·99)。第1~3个替换位点分别为27个(25.55%)、44个(40.0%)和49个(44.55%)。120个突变位点与119个密码子相关,其中79个为非同义(65.83%)和40个为同义(33.61%)。有42个非同义替换(53.17%)改变了氨基酸(AA)的生化性质。每个CDS基因的细节如图1所示。目前尚不清楚非同义替换和氨基酸生化性质的改变是否会改变SARS-CoV-2的感染活性。目前的抽样结果显示,在19例患者中都发现H1单倍型,但大多数单倍型仅测序一次。一种可能的解释是,华南市场的一种常见单倍型(图2)在人传人的早期阶段迅速传播。

与已发表的SARS-CoV和MERS-CoV基因组相比,SARS-CoV-2的25个基因组变异仍然较低,没有明显的重组位点/区域。根据测序样本的采集日期,在两个样本中,间隔30天以上发现了H1和H3单倍型,多个样本都超过了20天(图2)。虽然潜伏期可以超过24天,但在1099次观察中只有一次。用90个SARS-CoV-2基因组对DNA替换率的估计表明,SARS-CoV-2的替换率低于SARS-CoV和MERS-CoV的。因此,看来SARS-CoV-2仍在经历稳定的进化。由于症状轻,致死率低,感染者的免疫系统可为SARS-CoV-2的传播提供适宜的环境。SARS-CoV-2具有很强的传染性。武汉等地可能发生了一些大的突变,但2020年1月23日以来对我国的严格检疫政策可能减少了一些突变株的流通和传播。
在SARS-CoV-2的93个基因组中,39个(41.93%)来自四大洲11个国家的感染者,编码31个单倍型,其中27个为国家/地区特有单倍型。中国54个基因组(58.07%)同时编码31个单倍型。比例Z检验显示中国与其他国家的单倍型多样性存在显著差异(x2=4·024,df=1,P<0·05)。在其他国家的样本中发现的高单倍型多样性可能是因为取样日期大多在2020年1月22日之后,而在中国则是在这个日期之前。此外,国际长途飞行中的低辐射水平可能加速了SARS-CoV-2的突变率。使用DnaSP排除了SARS-CoV-2的恒定种群规模,而Fu检验和Tajima的D检验均表明SARS-CoV-2的种群规模正在迅速增加。Arlequin失配分布分析有力地支持了SARS-CoV-2的种群发生了突然膨胀。计算扩张时间为28.72天。在93个基因组中,最新的一个是在2020年2月3日取样的,因此估计扩展日期是在2020年1月6日,当时中国疾控中心开始启动二级应急响应。到2020年1月6日,129名患者被确定为SARS-CoV-2感染。22个基因组在2020年1月6日前测序,13个单倍型(58个单倍型中的22.41%)被发现,分别是H1及其衍生后代单倍型和H3(图2和图3)。此外,对2020年1月6日前22个基因组的错配分布分析也显示,SARS-CoV-2在传播早期出现了突然的种群扩张。在2020年1月5日前的28.38天(95%CI:12.00-54.36天)是22个基因组的最新取样日。因此,这种早期的扩张估计发生在2019年12月8日,当时只有一名感染的患者被正式报告。因此,在2019年12月之前,SARS-CoV-2已经在武汉的人群中广泛传播,可能从11月中下旬开始。SARS-CoV-2的58个单倍型的进化网络,以bat-RaTG13-CoV为外群,如图3A所示。可以识别出五个主要的群。在这个网络中,H1、H3和H13是三个核心单倍型,因此用它们作为中心单倍型(即祖先的超级散布者)来识别A-C组。D组和E组是根据两个新的超级散布者单倍型H56和一个媒介载体mv2识别的,这是一个假设的(通常是祖先的)单倍型,在当前样本中没有取样。这两组也可以看作是C组的亚群。在图中,4个卫星单倍型和H35连接到H13单倍型(A组),9个卫星单倍型和H38+H45和H50单倍型连接到H3(B组)。进化网络显示bat-RaTG13-CoV通过一个假设的单倍型(mv1)到H13和H38单倍型通过在18067(S,同义替代)和29102(S)位置发生了单个突变,涉及到29910bp的排列长度。H3和H1单倍型在8789(S)和28151(Ns,非同义替代)位置有两个突变。最丰富的H1单倍型包括19个样本,26个卫星单倍型和H40+(H43和H47)单倍型直接来源于H1单倍型(C组)。此外,D组的5个单倍型和E组的4个单倍型也应来源于H1单倍型。
进化网络表明,假设的单倍型mv1可能来自中间宿主或第一个受感染的人类。从这些联系来看,H13和H38都可能是祖先的单倍型。类SH近似似然比检验显示,在58个单倍型中,H13和H38(含H45)可能是系统发育中最基本的分支。单倍型的两个主要进化途径可以是从H13经过H3到H1,或从H38经过H3到H1(图3C)。两种情况都表明H3是从祖先单倍型到H1的关键连接。H13和H38都没有来自武汉(湖北)的样本(图3)。H13只在5个深圳(广东)样本中被发现,包括家族簇的父亲(病人2),他是广东最早发现的感染病人之一。两个衍生的单倍型也只在深圳发现(病人2的孙子H14),另外三个单倍型在3个来自日本和一个来自美国样本中发现(图3)。根据流行病学研究,这一深圳家庭在疫情宣布后前往武汉,他们在武汉探望期间可能是从医院或未知的共同来源感染的。这表明H13应该起源于武汉,但武汉现有的样本中没有一个编码A组的单倍型。从遗传学上讲,A组的单倍型只与武汉的H3单倍型有关(只有一个样本EPI_ISL_406801,与华南市场没有联系)。可能H13是深圳H3家族衍生的(图3C),没有在武汉传播,或者还没有样品测序。但是,进化网络不支持这种情况。H38有三个来自同一个病人的基因组,他是美国第一个被确认感染的病人。他应该是在中国探亲时被感染的。H38的来源可以解释来源于H3的H13的来源,H45的来源是在武汉工作的重庆病人。H3单倍型只有一个样本来自武汉,与华南市场无关,在这个组中的其他样本来自其他国家和地区(图3)。值得注意的是,华南市场所有样本均为H1单倍型或其衍生单倍型(H2,H8-H12,见图2),表明短期内市场内存在循环感染。华南市场的SARS-CoV-2可能是从其他地方传播来的(图3D),或者至少华南市场不是SARS-CoV-2的原始来源地。由于第一批确诊的感染者与市场没有联系,11日,感染者有可能将SARS-CoV-2传染给市场上的工人或销售商,之后在那里迅速传播。拥挤的市场推动了SARS-CoV-2向买家的传播,并在2019年12月初将其传播到整个城市,这与估计的群体扩张时间相对应。在中国54个病人的基因组中,重庆(3个样本)、广东(18个样本)、湖北(22个样本)、台湾(2个样本)和浙江(4个样本)有两个以上的样本,其他5个省份测序一个样本。湖北(武汉)2019年12月24日至2020年1月5日的样本共编码13个单倍型,分别属于C组(H1和11个卫星单倍型)和B组(仅H3)。这些关系表明,武汉市SARS-CoV-2在传播初期有快速传播和循环。H1(无卫星单倍型)和H3单倍型是武汉/湖北地区单倍型的祖先。从2020年1月10日至23日采集的18份广东样品,编码了15个单倍型,分别属于A、C、E组,表明广东有多种来源输入。三种单倍型(H14、H15和H17)可能在局部进化,表明SARS-CoV-2最初传播到广东深圳时发生了人与人之间的传播。来自台湾的两个样本分别在B组和D组编码H3和H24,来自重庆的三个样本分别在B组和C组编码H1、H40和H45。这两个省/地区有两个来源。四个浙江样本编码H1和H24在C组,这是唯一来源于H1单倍型的。中国以外的样本编码了31个属于A-E组的单倍型,其中27个单倍型是区域性样本所特有的,只有2个泰国样本是H1单倍型。澳大利亚和比利时各有一个是H3单倍型,美国有一个是H19单倍型,新加坡有一个是H40单倍型。来自亚洲5个国家的患者12个样本,编码10个单倍型。与武汉连锁的7个单倍型和与广东连锁的3个单倍型。从武汉遣返日本人H53-H52单倍型患者可能发生了人与人之间的传播。5份大洋洲样本(在B、C、D组中编码6个单倍型)均来自澳大利亚3个州,均与武汉有关。H3、H25和H26以及H55(与H1相关)的患者直接来自武汉,人与人之间的传播来自于在昆士兰同一旅游团的H25和H26患者。由于H56患者于2020年1月25日从武汉飞往悉尼,患者H27于2020年1月15日从武汉飞往墨尔本,H56和H27患者之间的联系尚不清楚,一种可能是有一个中间传播者,他将SARS-CoV-2传染给法国、美国和台湾的其他病人。八个欧洲样本,编码七个单倍型,来自四个国家的病人。比利时和德国的患者前往或留在武汉。英国的病人没有报告与武汉有联系,但从H28到H29有家族性传播。法国的患者可能受到三种不同来源的感染,即H44与武汉有关,H43可能与重庆/新加坡有关,H30可能与中间传播者有关。在来自美国的13个基因组中,3个来自华盛顿的同一病人,编码相同的单倍型H38,而另外3个样本编码8个单倍型,涵盖所有5个组(图3A),因此输入性感染的来源很复杂。三个单倍型(H1(加利福尼亚州)、H19(威斯康星州)和H38(华盛顿州))与武汉有关,三个单倍型到五个单倍型可能与广东有关。其余的单倍型与来自武汉的中国境外患者有关。尚不清楚他们是在哪里感染的。