转载自科学网薛宇博客
前两天刚从北京参加完“第二届全国计算生物学与生物信息学学术会议”回来,顿时感觉压力颇大。压力大的原因倒不是因为我因故晚了一天参会结果众好友很愤怒的纷纷指责,说兄弟们都用肺把沙尘暴吸干净了你小子才来,也不是因为瓜的拜仁被黑店虐了个1比3,更不是因为咱破车伤了当家前锋结果只好1比0小胜红魔,而是国内生信研究发展之快,众兄弟纷纷辟蹊径、搞新招、做验证和讲故事,在各自领域都是越做越深和越做越好。因此回来第一件事情就是跟学生们商量各种课题的进展。后来问兄弟们开完会都在忙啥,答:正在准备训学生或正在训学生。所以几十岁的人了,学校评估啦,学院考评啦,这些东西其实效果不怎么好,一是考来评去伤精力,整一圈大家都觉得浪费时间;二是你搞一帮外行来评内行,你要评谁不过谁都不乐意。而且,不管怎么考评,这都不是目的而是手段,学校或者学院想给教师们压力,其实也是希望教师们更努力的搞科研。所以方法学不对。正确的方法学是同行之间的压力。不需要量化什么指标,听听兄弟们的报告:呦,这个已经做数据整合了,那个又玩了个新算法,还有谁TM说搞生信不做实验,你瞧瞧这实验做得多漂亮,再有你看这讲故事的套路多严谨?等等。大家年龄相仿,人家做得好听个三句话、看两张幻灯还看不明白?是吧?听完赶紧收拾行李回实验室,然后宣布节假日一律取消,更加努力做科研。当然话说回来,咱历来没有节假日的概念,所以自然也不需要取消了。
好,说正事儿,话说“生物大数据”(Biological Big Data或Big Biological Data)这个名词是这两年随着“大数据”概念的忽悠的推广而逐渐成为许多生物学家开口必谈的、逼格甚高、倍儿有品位的术语。之所以搞生信的一直不怎么讲这个词儿,一是搞生信的人一开始就是玩大数据,或者说正是因为人类基因组搞了一堆大数据玩不转才直接促进当代生信的发展,所以大家天天拿来当饭吃的东西,只不过换个马甲儿而已,有啥好说的?第二,专业人士们不知道生物大数据究竟要做啥。所以大数据概念刚出来的时候,有人讽刺说大数据这玩意儿就像未成年人ML,小屁孩们显然都没搞过,但都觉得别人搞过,所以人人都说自己正在进行中。当然再一个问题是,遇到新东西时,一般外行要远比内行更胆大:这叫无知者无畏也。所以讲到生物大数据,一帮搞生信的全熄火了,纷纷关上门读书、读文献、查资料,满世界忽悠生物大数据的,呵呵,绝大多数估计既没见过大数据长什么样儿,也从来没有玩过数据,本来无一物,何故瞎白乎啊?
当然喽,专业的问题,再新颖也还是专业的问题而已,专业人士们也就是喝个茶的时间,大概也就明白究竟该做些啥。这不,这次开会,大会报告里上海马普所的韩老师就开讲生物大数据的整合分析,特邀报告里清华的张老师讲大数据的分析方法,哈尔滨医科大学的李老师谈怎么根据生物医学大数据做知识发现,北京蛋白质组中心的朱老师讨论生物大数据的搜索和注释等等。咱生信圈儿领军学者们纷纷研讨对生物大数据的思考和研究策略,所以咱今儿在这里做个总结。
生物大数据忽悠的是啥?(外行们肯定有这想法,因为外行们在忽悠的时候估计她/他自己都未必相信,是吧?) 搞生信的要问的问题,却是:我们究竟应该做什么?(咱历来不赞成专业人士玩儿忽悠) 虽然这个问题并非完全考虑清楚,但大家能想到的有两点。
第一,可视化。说到这儿估计可能很多内行们都要发笑了:不就是做图吗?生物学的文章里没有漂亮的图,你的影响因子也发不高啊。所以问题就在这里:非生物学背景转做生信的真的不怎么了解这个事儿。不相信的可以去看看咱生信领域的期刊Bioinformatics,随便找一期你自己看,很多文章可以从头到尾一路推公式推到地老天黑不带一张图表。这个,是职业习惯。很多领域并不是要求你必须要有漂亮的图和漂亮的表,例如某位几何学的大家就说一张图都没有的几何学研究才是真正的几何,等等。问题是生物学家普遍习惯了看图,好的生物学论文,可以基本不看文字,只靠看图就能读懂工作。所以这是一个职业习惯的问题,生信既然要融入或者希望融入主流的生物学领域,做漂亮图的习惯就必须要养成。此外,计算方法学一般不大容易产生出好懂的图,或者说有一般也就一两张,所以可视化的另一个内涵是:要做实际的生物大数据,要从数据里有效的提炼信息、发现潜在的知识。因此可视化不单单是一个做图的习惯要改,而是考虑生物学问题、做新的方法学、做数据分析、讲故事,等等,整个研究套路都需要有质的改变。例如,前年大家一起开会,讨论生信要不要做实验,之后Shirley写了篇博客,我还跟了个贴(评:《Should Computational Biologists do Experiments? 》),总结大家的意见。问题是这才过去一年半的时间,这个问题已经再无讨论的必要了:国内不做实验或者不与实验合作的生信学者已越来越少。按照这个趋势,大概五年之后,中国几乎再也找不到不关心生物学问题、不做或不与实验合作的生信学者。
第二,整合。讲到这儿估计外行们要发笑了:不就是把数据放到一起然后瞎白乎一个看起来像是真的玩意儿?当然喽,你要这么想,那我只能说:兔样兔森坡,萨姆泰母拿衣服。这个问题其实很难,需要相当相当高深的数学和物理建模。规律并不见得是一目了然的。例如,同是做植物杂交,其他人算了一堆比例发文章了事,梦兜(孟德尔)大师就能看出分离率和自由组合率,对吧?这就是他数学和物理学得好。饶毅老师书里讲生信是梦大师思想的直接继承者之一,咱翻了书看过了,这是对的。分子遗传学后来一气化三清:信息学派、结构学派和功能学派。信息学派的代表人物这个大家都知道:薛定谔,以及“噬菌体教堂的三主教”如德尔布吕克等。后来经过几个关键性的事件,其中一支发展为当代主流的生物信息学,这个事儿咱以后再说。总之,基因组、转录组、蛋白质组、翻译后修饰组和代谢组,怎么整合在一起发现新的生物学知识,这是大家提出来并且很现实值得解决的问题。这个吧,说难也不怎么难,大致就是以自己研究的内容为主,结合其他层面的组学数据做参考和校正,完了之后当然是要做实验验证,或者与实验学家合作做验证。
最后,白乎了这么半天,你肯定要说:那搞生物大数据,能解决什么问题呢?所以这个问题问的好。虽然究竟能解决多少问题咱也不清楚,但其中一个非常明确:精确医学 (Precision Medicine,可参见许培扬老师的博文)。精准医学的核心并不是医学,而是“精准”。要做到精准,生信是必须的。所以近期德州大学MD AndersonCancer Center的助理教授Jeffrey Chang在Nature上撰文(Core services: Reward bioinformaticians),开篇就说美国在今年1月搞的“精准医学计划”(Precision Medicine Initiative),给了2.15亿美元来收集美国100万人以上的医学、生理学和基因组数据,发现个体的模式从而提高医疗水平。因此,这些数据如果没人分析就会迅速的堆积如山 (Biological data will continue to pile up unless those who analyse it)。所以问题就在于:没有足够的生物信息学家 (..there are not enough bioinformaticians)。
当然,最最后你肯定要问:什么叫“精准医学”?这个吧,安吉丽娜切MiMi就是一个。当然精准医学做的最好的,就是HIV抗药性的分析,美国斯坦福专门建了个数据库Hivdb,这样对患者的HIV测序之后,与标准的序列比较发现抗药性的突变,就很容易知道哪些药不适合该患者,因此可以拿剩下的药做组合来抑制HIV。那要过一段时间又有抗药性了怎么办?简单,重新测序再比较,总能找到HIV抗不了的药。当然斯坦福搞的这东西也不是说就做简单的比较,算法上还是有深度的。类似的研究策略是否可以推广到各种疾病的治疗中,那就是值得研究的问题了。
欢迎关注生信人