搜狐IT消息
3月22日,2015中国(深圳)IT领袖峰会今日五洲宾馆举行。华大基因首席执行官王俊在演讲中讲述了计算大脑和人脑的关系,和其背后的基因科学。
以下为王俊演讲全文:
谢谢市长,今天我演讲的题目叫做“IT和BT融合产业的爆发点”,这个题目本来不是我选的题目,我选的题目本来叫“生命的语言”,但是最后被组委会否了。我是一个做基因科技的人跑到IT领袖峰会来讲,所以我必须有一些题目能够反映IT,所以我改了一个题目当BT遇上IT谁会爱上谁。后来我的助理告诉我不能用这个题目,一定会被打回来,然后我就想了一个一定不会被打回来的题目。虽然这个题目听起来平淡无奇,但是一定会过审批。我这个人比较固执,所以我还是很愿意讲一讲生命的语言,为什么用生命的语言来阐述今天的题目?
当我们讲数字化的时候,讲计算机,讲IT,习惯于以硅为体系。但是在讲到生命的时候是以碳为体系。生命的基础是碳,生命是数字化的,为什么讲生命是数字化的?它能够储存吗?能够编程吗?能够用不同的程序改变来实现不同的生命形式吗?可以做克隆吗?行还是不行?当然是行的,我们是很容易做克隆的。它能存储吗?能,为什么能那么简单从一个羊身上提一个细胞变成另一个羊呢?因为那个羊的细胞储存了所有羊的生命程序。一个巴掌大的DNA可以储存多少年呢?事实上可以达到上亿年的储存时间,最起码可以上百万年。现在没有任何一种存储介质可以把这样的信息载体储存上百万年的时间,所以DNA是可以存储的。他能够计算吗?当然能够。因为计算和编程最核心基本单位是基因,基因是生命体最基本构成单位。我们每个人身上蕴藏所有信息组合就是一套生命信息基本程序,这套基本程序就是生命的语言。它的语言怎么形成的呢?在最开始的时候,就像每个程序员写出一个功能模块希望所有人都用他这个功能模块一样,在生命体里形成一些基因、一些蛋白质、一些小分子,基因、蛋白质、小分子也希望不断扩张自己,在不断扩张自己同时,其实在美国有一本书非常出名,整个不断过程就是不断复制、不断扩张、不断延展,有时候发现一个基因并不够用,可以和其他基因一起合作,两个基因、三个基因一起合作更好的时候,当一堆基因合作更好的时候,就形成个体。我们人身上有2-3万个基因,水稻有5万多基因,不同物种有不同基因,比如我们现在看到一个酵母菌用4000个基因,所有不同基因组合形式不同的生命程序,不同生命程序就形成你这个个体与周围环境适应。你的每一套程序代表着不同的生存策略,这套不同的生存策略事实上针对于不同环境体系而来。在他检查你的程序到底好用不好用唯一标准就是你这套程序能不能活下去,传播更多后代。当你选择传播更多后代的这套程序就叫做可以适应于这套环境的生命语言。所以我们看见所谓的达尔文进化学说、适者生存都是这个基础上建立,我们每个人更基因信息的载体,每个人跟微小虫子相比都发现了相似性,很多基因从那儿传到我们身上。
对于个体来说也是一样的,每个人一套生命程序也是不一样的。为什么西藏人可以高山适应,为什么我们上了高原有非常强的高原反应,是因为身体一套程序没有写进高山适应的基因,藏族人有一套基因,有这个基因的人群可以在高原体系上没有反应,像我们在上面就不行。在汉族人体系里就只有5%人有这个基因,而藏族人达到95%。这样的东西不仅仅单纯存在在西藏特别复杂极端的环境里,还有很多东西跟饮食相关,比如南方傣族人因为在祖先经常吃槟榔,所以体内基因很多跟槟榔适应。等等。我可出举很多例子。这是个体水平的变化。个体水平为什么会变化呢?为什么西藏人跟汉族人不一样呢?它的分支到底怎么回事?其实他背后有很多有意思的东西。比如说它的变化来源是什么?当我们考虑一个精子、卵子结合的时候,他发生了重组,每一代当中,你孩子和父母之间有100个基因突变,这些基础就形成不同生存策略,环境在时时刻刻变化、基因在时时刻刻变化,基因组是预测程序。你身上基因是因为你祖先上千年、上万年不断学习、进化,对你后来有可能遇到的环境的预测。你体内基因不会告诉你去不去高原,但是一定会告诉你去完高原会有什么反应。这是非常有意思的假设。如果每个人生下来就有一个盒子,这个盒子清楚告诉你往哪去、会发生什么样的影响,他如何指导和我们生活呢?首先第一个问题,如果我有一个盒子,编程告诉我能活多少岁。有人说你的基因,如果你做真正很好的遵循基因告诉你的事情,你可以活到150岁,但是为什么活不到150岁?因为你会得各种各样的病,这些病从年轻的时候开始一直到年老都有关系,而这些病跟基因有什么关系、或者跟环境、跟数字化、跟IT、BT有什么关系呢?我通过几个方面解释。
基因里面的毛病有点像写程序的时候出了一个bug,出了bug,基因程序运营不了,在有时候就出现很严重的问题。比如各种各样罕见疾病。有罕见疾病的一般生存周期都非常短,我们有各种各样例子,这种罕见疾病听起来非常罕见,但是加起来一点都不罕见,中国有大于5.6%的孩子出生有各种各样的出生缺陷,非常大的。生命程序不断试代码、试代码过程中不断试错,当然每一个错误并不是代表新的往前演化的可能。对付他们我们该怎么办?华大经常收到这样的东西,这是一个血书,从一个鱼鳞病患者写给我们的,他们有一个组织,这样的组织有很多,比如瓷娃娃协会等等,这一个鱼鳞病患者的妻子写的,他希望能够把这个病变成可防可控。现在这个夫人生了一个孩子,幸运的是没有得这个病。就是因为通过基因检测了这个程序。当孩子出身之前,我能不能做一些检测,早点发现有什么问题,早点控制,当然可以。这是第一个。我能不能先查一下你的父亲、母亲有没有基因突变,如果有,你们生孩子概率有多少,如果这样的话,以后就不要配八字了,谈恋爱结婚之前先配一下基因,看生命基因程序是不是匹配。我们一般在教堂宣誓都这么讲,无论是疾病与否、健康与否都一辈待在一起。两广福建地区地中海贫血携带率差不多19%,如果有两个携带者的夫妇结合在一起,生了地中学贫血孩子的可能性非常大。我们可以人工受精,做一个移植前检测,移植前检测在中国很多医院已经开展了。再往下一步,如果怀孕了怎么办?怀孕两到三个月之内可以对孩子进行完整基因检测,尤其是针对非常罕见的基因性疾病,通过这些筛差可以达到出生前防控。如果再往下走,新生儿出生了还需不需要检测?中国耳聋发生率很多是因为错用抗生素,如果体内基因不能受链霉素这个抗生素,一下就耳聋。如果早一点知道他得各种各样的心脏病、耳聋,包括自闭症风险,我们是不是可以早一点干预?是可以的。我们能不能治呢?除了用一个非常可变的信息看这些东西之后,我们又有一个非常疯狂的想法,能不能通过大数据挖掘发现一些罕见病真正解决方案呢?答案是可以的,非常有意思,我们有一个计划,搜索了100万人基因数据,寻找那些单纯从基因校对来讲他应该单基因疾病,但是非常健康,这些人我们叫超级英雄,这些人非常有意思,他们体内有非常明确的致病基因,但是非常健康,为什么?因为体内有另外一套基因保护他。就像程序我一段出现bug,但是有另外一段修复,就非常健康。如果找出那一段是什么,也许可以找出罕见性疾病的药物。我们以后不要再去浇冰桶,这是道义上的支持,更重要的支持就是基因测序。
再往下走是肿瘤,很多人面对肿瘤威胁,肿瘤是你生存过程中由于环境因素影响,你的基因程序在变异,所有细胞都来源于第一个细胞,受精卵细胞,从那个细胞开始每次都会引发程序变化。不同环境影响会导致程序非常大不同,比如抽烟增加肺部细胞变异率。用简单IT方式来讲,是你生命程序那段代码被黑客给黑了。黑客黑的概率会随着环境因素不同而变化,如果经常抽烟,如果经常生活在不好的环境里,深圳是非常好的。或者受到各种各样病毒感染,可能程序被黑。怎么办呢?其中有可能一个细胞发生被黑了,没有关系,有人说我身体有上亿个细胞。但是如果一个细胞被黑了,他很有可能获得比其他细胞更强的适应性,他可以不断扩张。从一个肿瘤细胞发生到你最后你可以用CT扫描能查出来,平均要15年。也就是15年内体内有肿瘤细胞你不知道,我们能不能早点发现他,答案是可以的,因为所有细胞最终都要游离到血液里,我们通过非常深度的基因检测可以看到你体内有没有肿瘤细胞。
我得了肿瘤怎么办呢?每一个人的肿瘤,每一个个体,肿瘤每一个细胞的基因都不一样,你做的事是对所有细胞真正基因监测,而不是简单的手术一切、放疗、化疗,这样的治疗有可能在未来两三年内看到飞速发展。如果所有努力都是为了增加肿瘤患者生存概率,那还有另外的我没有提到的,但是大家非常关注的,比如慢性疾病、感染性疾病,其实万物都是跟基因有关系。我的体内细胞如果以人为一个整体的话,作为人这个个体的细胞只占人体的细胞的1/10,还有9/10是各种各样的微生物、各种各样病毒,你天天洗两次澡都没有用。你吸收一个半小时候所有细菌都回来了。这些微生物并不是都是坏的,比如微生物体内病源微生物会形成什么影响?所带来影响是非常大的,比如埃博拉病毒、SARS病毒,90%发烧腹泻你根本不知道怎么回事。小于1%微生物可以被培养,你根本没有办法搞明白到底什么让你发烧、什么让你腹泻,你可以所有DNA提取出来,一个小时内就知道到底怎么会感染。早一点这样做,就可以早一点摆脱疾病风险。
还有另外一个事情,高血糖、高血压三高,30年前中国糖尿病发生率0.67%,现在已经接近11%,1/4中国成年人要么得糖尿病、要么要得糖尿病,不可能是基因在过去30年有非常大的改变,是因为饮食变化、环境变化,引发肠道微生物菌群失调,很多疾病都跟这个有关系。你能怎么办呢?比如少吃碳水化合物,比如多运动,再来一点猛的,查完之后,缺什么微生物就补什么。如果补一两个不管用,把你认为健康的体内的微生物转给你就行了,怎么管?粪便移植,这样的东西已经逐渐在医学界应用了。我们应该做的是一个鸡尾酒疗法,确保你体内是符合真正健康的菌群体系,最终我们要完成这个生命公式,自己的基因、环境因素的基因,各种各样的东西,右边是你表现的状况,身高、体重、各种各样的病理特征、健康与否,中间的公式怎么写呢?这个时候就体现了刚才吴恩达老师讲的题目,我们只知道一个城市的输入端、输出端,中间是怎么编程,毫无所知。该怎么办呢?大数据,健康大数据取决于把所有输入端、输出端全部计算清楚,如果研究清楚身高基因的关系,需要100万人。要研究清楚绝大部分复杂疾病和基因以及环境的关系,需要100万人。你需要把100万人各种各样信息全部搜集,才能得到刚才讲的生命公式。
用什么方法呢?这种方法到底贵不贵呢?这种方法非常昂贵。1999年中国华大基因参与了1%人类基因组计划。当时测序需要10亿美金,最近已经降成1万美金,仍然很贵,要搜集100万人的数据仍然很贵,现在可以做到1000美金,我估计明年会推出一个500美金可以测定一个人的完整基因。这就可以搜集基因数据。什么时候可以免费呢?免费实施的到来事实上在于基因本身的数据价值远远大于产生他的数据所需要的成本。对于华大来讲这样一个趋势延续我们认为在2019年左右,5年左右时间我们可以真正达到这样的结果。除了这种基因数据之外,我们知道现在比较时髦的词,物联网,收集各种各样输入输出数据,比如未来厕所将是智能厕所,当在厕所方便,所有代谢物、蛋白质数据等等数据都收集起来,包括躺在床上各种各样的体征数据、坐车等等各种数据都收集完成后,你一定要记得要把他们连起来,为什么讲基因组网络那么重要,所有在座的人、所有的男人12万年前来源一个男人,所有女人12万年前来源一个女人。我们的科学研究发现所有都来自一个人,这是什么概念呢?有人说这是亚当和夏娃,中国70%汉族人追溯到6000年前就三个人,炎黄蚩尤。所有东亚人,40%东亚人追溯到之前就11个人。如果把每个人数据都连起来,形成基因组网络,将是不可估量,我们讲互联网。IT互联网企业,超级计算机,个人电脑,真正成了不可估量的机会。每个人在上面产生数据和支持,基因组是一样的。人因基因组计划,每个人的基因计划,当所有基因组形成网络,我们有一个网站叫同病相怜网站,当所有病人组合了一个网站,我们就可能有机会把这个基因和病之间的关系搞清楚,在上面会形成各种各样的机会,这些机会、信息和知识是以前我们在没有做甚至一个个人基因组是不可想象的。最终要做的是需要人工智能来学习,因为这么大的量已经不可能用一个单一模型来解决。而华大已经在做很多事,这些事听起来像天方夜谭,我们做了3000株小米,在同一个地方测定各种各样生长条件,最后看出来他产量是多少、营养成分怎么样、各种各样结果,我们给他进行深度学习、人工智能方法,现在给定另外一驻小米,我有90%准确性可以预测他长的怎么样。对健康有这样的能力吗?当我们拥有100万人基因测序的时候,离这样的能力很近。奥巴马提出一个精准医疗计划,就是要做100万人基因组库,当所有人完成后,我们会有一个水晶球,预测对你未来健康走向预知,而这样的预知很有可能再做一些改变,我们听过3D打印、细胞存储、基因编辑、我们听过合成生物学,喝的啤酒的酵母将不是自然界酵母,而是计算机写出来的,酵母产生的啤酒味道也许比你现在喝的任何啤酒味道都要好。还有,生命信息的存储,我们都叫干细胞,干细胞什么意思?就是年轻时候的生命信息,你不是想年轻吗?在你年老的时候能不能把年轻时候的信息再回到,也许就年轻了。所有像科学幻想的东西都在生命科学界在以飞速方式往前走。从健康角度,我们老说吃得好,活得长。对健康追求不是感性愿望,对我们来说对在座IT大佬来说更重要是理性追求,如果真正基于一个所谓人工智能方式、大数据处理方式,能管理健康、掌握预测的程序和健康关系,也许是真正最有意义的,基因科技最能够带给人类的福祉,自然以山清水秀为美、人以健康长寿为福,所有华大应该追求的目标就是基因科技,造福人类。如果简单说一下华大,华大是全球最大的基因组中心、最大的生物信息中心。掌握了只有5500人,我们平均年龄27岁。华大机构遍布60多个国家,同时是国家基因库承办单位,国家基因库存储各样生命信息体。
当我们定义一个生命的时候,其实我们讲不清楚,如果在未来计算机体系里面给他有很多很多生命逻辑,他会变成一个生命体吗?如果我们计算大脑已经可以跟人脑匹配的时候,它有生命性吗?当我们拥有改变人类基因的时候,我们是怎么应该控制我们这种能力?所有这些东西都非常值得大家思考,作为另外一个纬度的IT人,在座各位是硅基因维度的,我是碳基因维度的,作为另外一个纬度的,我希望给大家带来的不仅仅是对生命认知,而且是对健康认知最佳理性的选择。谢谢!