曾就职于默克公司、Sage公司和Pacific Biosciences公司的Eric Schadt目前任Mount Sinai医学院遗传学&基因组学主管和基因组学&多尺度生物学研究所主任,他的开创性事业出现在2011年。自然-生物技术记者在Schadt的新纽约办公室遇见了他,讨论了关于花费1以美元推动Mount Sinai成为革命性基因组学前沿的远见,以及他为什么聚集华尔街的金融工程师,用户界面领导者和Facebook的之前数据去从事这一活动。
你为什么要来纽约?
Eric Schadt:Mount Sinai有一个最古老的遗传医学搁置计划和研究罕见疾病的久远历史。Burrill Crohn是这里的一位医生,也是描述Crohn疾病的第一人。Fabrazyme是这里研发的一种Genzyme公司的最畅销药物,如今它的目标是希望成为将基因组信息和其他大型库实际应用于诊断和治疗病人领域内的领导者,同时也愿意投入大批资金以期待突破。
将基因组发现转化临床医疗的所用必需要素都整合到Mount Sinai医学中心,遗传学&基因组学部门已进行了罕见的疾病检测,纽约的60%新生儿在这个部门进行筛查。在这里,他们知道如何将遗传信息转化成常规临床护理的一部分,我们正在训练医师,让他们和你就这方面信息进行有效的交流。总的来说,我觉得如果你真正希望理解以信息为驱动的医学将会怎样出现,这里是一个值得观察的地方。
你的远见是什么?
ES:很大的远见是,我们如何在10年内涵盖海量的数据信息,并用于Mount Sinai就医的病人。我们要收集尽可能多的病人信息,建立预测模型,然后从这些模型得出更精准的诊断、风险评估以及更可行的治疗方案。我们感兴趣的不仅包括关于病人和大规模患者的分子和临床资料,还包括将环境条件考虑在内,如医院或当地环境的微生物分析,然后,如何组织这些大规模的资料将成为我们的难题。
这些大的生物数据库如何组织?
ES:理想的做法是将这些资料包装在完整的预测模型中。目前,研究人员和临床医生必须挖掘海量的论文、生物通路数据库和广泛的原始数据库。我们的目标是将所有这些数据整合在模型以诊断疾病的亚型。在基础研究方面,如果模型预测得准确以及信息足够多,人们会利用它形成假设,从而有助于促使在实验室中做出决定。由于生物领域实验能够驳斥或验证这些模型,我们将使用这些信息来改进模型。这一领域的远景也可以在其它学科发现,如物理学或气候学。当大型粒子对撞机产生大量数据时,研究人员不断从源头重构所有的物理定律。相反,他们说:“我们现有的模型在哪里运作?它们不会在哪里运作?我们如何完善它们?”我认为这些都是生物学研究者需要考虑的。
医生将如何使用这些模型?
ES:当医生诊断和治疗病人时,我们希望给他们一种工具,凭此,他们能利这些信息做出决策。像定量贸易商以及涌入华尔街的数学家和物理学家一样,我们希望能将数学算法应用于海量数据,从而回答这些问题:“什么类型的公司我敢下注?如果这样的话,我敢下注多少钱?何时我才敢打赌?何时我才抛售赌注?”量化交易的诞生给华尔街带来了一个全新的预测模型,从而推动了多层次的决策。我们希望要以同样的方式转化医学,而不是要下注哪家公司。我们正在寻求哪一类病人需要治疗,对于他们而言,治疗效果才是最佳的。
你如何使人们利用大规模信息?
ES:我觉得,目前生物学领域需要的头号人物是是史蒂夫•乔布斯。能将惊奇的设计、直观的界面引入到复杂数据的生物界史蒂夫•乔布还不知道在哪里?正如今天小镇医生可使用谷歌查询以帮助找出一个特定的病症,针对复杂数据的Google风格界面和预测模型将在诊断和治疗病人中推动有效的决策。我认为,这一界面是至关重要的。这就是我们为什么正在大力投资生物医学信息,并从事于这个领域——即便不懂大量数据或复杂模型的人们也得获得有价值的信息。
至今你做了什么?
ES:我们在纽约创建首个CLIA(Clinical Laboratory Improvement Amendments)认证的下一代测序实验室。我们正利用专业知识去管理海量数据。最近,我们宣布Jeff Hammerbacher在这里将度过大量的时间。Jeff 是Mark Zuckerburg的同学、Facebook的早期员工,他创建并带领数据研究小组,后者开发的所有计算基础设施和算法兼容到Facebook操作。离开Facebook后,他创办一家我们现在合作的新公司。我们还聘请来自Oak Ridge国家实验室的Patricia Kovatch,他领导的小组建立了捷豹超级计算机,在2009年属于全球头号的超级计算机。我们聘请的30位专家其中一半精通网络模型、预测模型或机器学习;另一半专注于序列信息、疾病生物学和界面搭建。想法是,“让跨学科人才的多样化才能在同一空间施展,彼此相互学习和协作,我们如何创建合适的生态系统?”
需要解决什么问题?
ES:挑战在于,以近系统化方式利用现有算法去建立预测模型。如何对模型进行排名?如何建立最佳模型以及背后的算法?如何把多种模型整合到更好地模型中?其它挑战涉及到实际算法的改善。例如,你怎么能整合成“自上而下”假说驱动和“自下而上”数据驱动的建模方法以创建一体的数学框架?今天,这些方法的从业者大多独立工作,我们的主要工作之一是要充分利用各自的优势,同时最大限度地减少他们的弱点。对我来说很好玩,因为我觉得目前存在的全部或大部分的方法都不足于处理海量的数据。
这些罕见单基因疾病是走向系统化的窗口
ES:没错,单基因疾病确实是走向系统化的窗口。虽然它可能是一个驱使你进入疾病状态的主要因素,不过体内很可能有许多补偿效应,这说明了反应的多样性。Mount Sinai 诊所具有各种各样罕见疾病的病例,我们尝试了解个体应对不同环境压力所表现出的分子、细胞和组织网络的波及效应。
你重视什么样的颠覆性技术?
ES:几家公司聚焦在竞争性问题,如Kaggle。它们允许客户在网上发布数据以及对数据分析的挑战——任何人都可尝试解决并为最佳的解决方案提供现金奖励。这些公司正在寻找问题的解决方法,以致于你不需要成为一名专家,如生物学家何化学家,就能了解问题。很多时候,赢得这些比赛的人一点都不知道生物学或化学的知识。
在这里,经验的价值在于让世界各地尽可能多的聪明大脑以不同方式看待这一问题,我们必须利用全世界作为我们的实验室。我觉得突破性技术能够帮助局外人思考,在中国和印度有很多非常聪明的人,为了赢得20,000 美元,他们会很高兴去解决一个紧迫问题,如果不让他们参与进来,我预测大企业将重改问题——如果你能提高他们的解决方案,它将有重大的经济或健康益处。一个要克服的最大困难是如何让专家不会有工作丢失的威胁。
基础研究的专家或初级保健医师会感到威胁呢?
ES:没有,虽然今天的数据库很大了,但是没有达到足够广泛的程度——把数据投入到大黑盒子内期待应用于临床的信息能够出现。你仍然需要高级构架师、领域内专家去帮助指导模型构建以及如何定义能让数据更好地应用于临床。不要低估人类智慧在识别模型和框架内整合研究者或医生所知信息的力量。这不会消失,但是以什么方式组织浩瀚数据正在发生变化。我们可利用预测模型极大地补充智慧对模式的识别能力,从而帮助指导在实验室或诊所的决策。我脑海里的问题是:你如何创建一个集专家、众人智慧,同时减少他们缺点的生态系统?
这种开放研究是否有任何障碍吗?
ES:我低估的一件事是很难让这些数据获得分享,人们都有一种数据拥有者的感觉。他们投入资金生成或收集数据,并开展实验,人类的自然本能是私集数据,以致于能维持竞争优势。你怎么能吸引和招募一些团体为共同事业聚集在一起,从而能够大大超过独行所能获得的成果?这些“社交”问题已被证明是最困难的问题,这是资助Sage Bionetworks的主要动机之一,我和Stephen Friend共同努力去发起这一举动。我觉得,具有讽刺意味的是,计算机方面证实是一个较容易的问题,。如果四年前您问我这个问题,我的回答刚好相反。
如何才能打破这些障碍?
ES:教育以及让患者作为他们最好的宣传员。那些参与研究的主体能让研究人员承认:数据的真正拥有者不是他们。那些递送样品、付出时间或者贡献临床表征的人往往不能直接从研究中获益。为什么病人不能获得更多访问他们临床资料的权利,例如,他们和其他研究人员共同享有这一信息,患者应该为自身健康倡议。我认为,这是一个我见过的有望改变目前研究氛围的大型活动。
未来几年有什么主要目标?
ES:如果付出了所有努力,我会说,我们有志于成为信息的专家,并让其他人从中获益。在10年内,如果我们做到这一点,它将会是一个很大的乐趣,在纽约市,存在所有适合的因素有助于我们革命性地改变诊断和疾病治疗的方式。我想从市长Bloomberg往下,目前每个人都看到了这个城市在医疗和生物技术领域的巨大潜力。从许多著名的科研机构和医院以及令人难以置信的多样化患者人群,到定量金融行业,人们可从医学角度多个层次构建预测模型,从而做出基于现实的决策。我想纽约市以外的任何人都不应该惧怕这种潜力,但应注意的是纽约在这一领域的竞争将变得更加激烈,我们尤其要学习如何更有效地合作。
来源: 生物探索
点击以下「关键词」,查看往期内容:
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史