大数据的威力


吴军,见过世界80%的名画真迹

大数据更重要的在于它的多维度和完备性,有了这两点才能将原本看似无关的事件联系起来,恢复出对事物全方位完整的描述。

进入正题前,先举一个例子,看看数据的重要性。

2012 年,世界上人口最多的 10 个城市(不包括远郊县)是哪些?我拿这个问题问了十几个人,他们给我的答案大多是这样一些城市:上海、重庆、东京、北京、孟买等(这些都是中国、印度这种人口大国的大都市),或者东京、纽约和巴黎等世界名城。事实上,除了上海、纽约、东京和德里,世界上人口最多的 10 个城市中的 6 个都是一般人想不到的。世界地图网站综合了 2012 年世界各国人口普查结果,给出了世界上人口最多的 10 大城市,如下表所示。

其中首尔、马尼拉、卡拉奇、圣保罗和雅加达,要是不看数据,很难想得到。

数据很重要,那么什么是大数据?

大数据的数据量自然是非常大的,这一点毫无疑问,但光是量大还不算我们所说的大数据。大数据更重要的在于它的多维度和完备性,有了这两点才能将原本看似无关的事件联系起来,恢复出对事物全方位完整的描述。为了说明这一点,我们再来看一个的例子。

2013 年 9 月,百度发布了一个颇有意思的统计结果——《中国十大“吃货”省市排行榜》。百度没有做任何的民意调查和各地饮食习惯的研究,它只是从“百度知道”的 7700 万条与吃有关的问题里“挖掘”出一些结论。但这些结论看上去比任何学术研究的结论更能反映中国不同地区的饮食习惯。我们不妨看看百度给出的一些结论:

在关于“什么能吃吗”的问题中,福建、浙江、广东、四川等地的网友最常问的是“什么虫能吃吗”,江苏、上海、北京等地的网友最常问的是“什么的皮能不能吃”,内蒙古、新疆、西藏,网友则最关心“蘑菇能吃吗”,而宁夏网友最关心的竟然是“螃蟹能吃吗”。宁夏网友关心的食物一定会让嗜吃螃蟹的江苏浙江网友大跌眼镜,反过来也是一样,宁夏网友会惊讶有人居然要吃虫子! (下面的截图来自:中国十大吃货省市排行榜

百度做的这件小事,其实就是大数据的一个典型应用,它有这样一些特点:首先,数据本身非常“大”,7700 万个问题和回答可不是一个小数目;第二,这些数据维度其实非常多,它们涉及到食物的做法、吃法、成分、营养价值、价格、问题来源的地域和时间等等,而且这些维度也不是明确地给出的(这一点和传统的数据库不一样)。在外人看来,这些原始的数据“相当杂乱”,但是恰恰是这些看上去杂乱无章的数据将原来看似无关的维度(时间、地域、食品、做法和成分等)联系了起来。经过对这些信息的挖掘、加工和整理,就得到了有意义的统计规律,比如不同地域的居民饮食习惯

说到这里,大家可能会有个疑问:上面这些统计似乎并不复杂,按照传统的统计方法应该也可以获取。我不能说传统的方法在这里行不通,但是难度是相当大的,比一般人想象得要大。我们不妨看看搁在过去,要想获得这些统计结果必须做哪些事情。首先,要设计一份合理的问卷(这并不容易),然后要从不同地区寻找具有代表性的人群进行调查(这就是盖洛普一直在做的事情),最后要半人工地处理和整理数据。这么做不仅成本高,而且如同盖洛普民调一样,很难在采样时将各种因素考虑周全。如果后来统计时发现调查问卷中还应该再加一项,对不起,补上这一项的成本几乎要翻番。

传统方法难度大的第二个原因,是填写的问卷未必能反映被调查人真实的想法。要知道大家在百度知道上提问和回答是没有压力,也没有功利的,有什么问题就提什么问题,知道什么答案就回答什么。但是在填写调查问卷时就不同了。大部分人都不想让自己表现得“非常怪”,因此多半不会在答卷上写下自己有“爱吃臭豆腐”的习惯,或者“喜欢吃虫子”的嗜好。

中央电视台过去在调查收视率时就遇到过这样的情况,他们发现通过用户填写的收视卡片调查出的收视率,和自动收视统计盒子得到的结果完全不同。从收视卡片得到的统计结果中,那些大牌主持人和所谓高品位的节目收视率明显地被夸大了,因为用户本能地要填一些让自己显得有面子的节目。我本人也做过类似的实验,从社交网络的数据得到的对奥巴马医疗改革的支持率(大约只有 24%)比盖洛普的结果(41%)要低得多。

大数据的好处远不止是成本和准确性的问题,它的优势还在于多维度(或叫全方位)。过去计算机能够存储和处理的数据通常有限,因此只收集与待解决问题相关的数据,这些数据只有很少的几个维度,而看似无关的维度都被省略掉了。这种限制也决定了特定的数据使用方式,即常常是先有假设或者结论,然后再用数据来验证。现在,云计算的出现使我们可以存储和处理大量关系很复杂甚至是原本看似没什么用的数据。工作的方法就因此而改变了。除了使用数据验证已有的结论外,还可以从这些数据本身出发,不带任何固有的想法,看看数据本身能够给出什么新的结论,这样一来,就可能会发现很多新的规律。比如百度百科中的数据乍一看是杂乱无章的,但其实数据之间有很多内在联系。在对这些大数据进行分析之前,产品经理们的头脑里并没有预先的假设,也不知道能得出什么样的结论。但是,最终通过对这些数据进行分析,发现了很多新的规律。我想,百度内部人士在第一时间看到这些结果时,恐怕也是会大跌眼镜的。

当然,世界上有很多比吃虫子或者吃螃蟹更重要的事情,比如医疗保健。我们知道,很多疾病是和基因的缺陷相关的,但是基因作用的原理非常复杂,一个基因的缺陷可能会导致某种疾病,但也只是可能而已。

研究人类基因与疾病的关系的另一个难点在于如何找到那些可能有缺陷的基因。要知道,一个人完整的基因的数据是非常大的。据华大基因创始人杨焕明院士介绍,这个数据量大得超出常人想象,在 PB(1015 字节,即一百万个 GB)这个数量级。如果仅仅从数据量的大小来看,这一个人的数据可能已经超过百度知道的数据量了。当然,只看一个人的基因,无法得知其中的一段基因是好的还是有缺陷的,即使找来几个人,甚至几十个人的基因也不够,因为人类每个个体之间的基因是有一定差异的,并不能说明不同的基因就是缺陷。要定位这些可能的缺陷,至少需要成千上万人的基因数据。在云计算出现之前,人们是难以处理这么大量的数据的。

收集大量人的基因数据在过去也是一个大问题。好在世界上很多看似难办的事情总是有办法解决的。美国有一个叫做 23andMe 的小公司,它做的事情很有意思,做法也很聪明。这家公司只需要 100 美元(不是医院里做一次全面的 DNA 检测所要的 2000—5000 美元)用于收集你的唾液,就可以把你的基因大致地“读一读”,然后“大致”告诉你今后得各种病的概率。当然,这家公司对基因的解读和华大基因绘制整个基因图谱不是一回事。但是即使做比较简单的基因分析,100 美元也是不够的。23andMe 实际上是通过这种方法吸引了大量的基因提供者,有了大量的基因,他们就能区分哪个基因片段是正常的,哪个存在“可能的”缺陷。对于每一个提供基因的人,他们能列出这个人一些可能的缺陷基因。当然他们也能得到每一种基因缺陷的概率。

23andMe 和同类公司(包括 Google 的保健研究部门)正在做的另一件事就是将基因的缺陷和疾病联系起来,这个数据必须到研究机构和医院去拿。过去,每一所医院这方面的数据其实是非常有限的,但是如果把成千上万个大小医院的数据收集起来,那么就能够估计出疾病和基因缺陷同现的概率了,进而可以将有某种基因缺陷导致疾病的概率算出来。未来,大数据可以通过基因检测的方法准确地告诉我们每一个人今后的健康状况,做到有效预防疾病。 (请看这则报道:基因泰克与 23andMe 合作进行全基因组测序工作

我之所以举医疗行业的例子,是因为除了 IT 行业,医疗保健是对大数据最热衷的行业。当然,另一个原因是 Google 和我本人对这个行业都比较热衷,比较容易举例子,但这并不表明大数据的应用只集中在这两个行业。

医疗保健行业是美国最大的行业,2013 年它的产值占到美国 GDP 的 15%左右,如果成本不能下降,这个比例将提高 20%左右。在这么大的一个行业,虽然过去医生们也天天在和数据(各种化验结果和指标)打交道,但遗憾的是,在过去的五六十年里,医生们利用 IT 技术来改进医疗水平的动力并不足(除了医学影像等技术外)。不过,在过去的十年里,这种情况得到了改变,医疗行业主动接触 IT 行业,希望通过大数据来解决医疗保健上的难题。这从另一个侧面显示了大数据的重要性。到目前为止,大数据已经给医疗行业带来了不少意想不到的惊喜。2012 年,美国媒体报道了两个大数据在医疗上的应用,就很能说明问题。

第一个是关于一位女高中生的故事。2012 年她通过大数据大大提高了乳腺癌活检位置的准确性。我们知道,对于一些可能患有乳腺癌的患者,需要进行活检,也就是在可疑的部位用一种特殊的针穿刺取出一些细胞,化验看看是否有癌细胞。活检的准确性完全取决于穿刺的部位,如果穿刺部位不准确,即使有癌细胞也检测不到。过去这件事完全取决于医生的经验。

但是一个医生在美国可能一辈子也就见过几百例这类疾病,因此经验的积累非常缓慢。而且即使是有经验的大夫,也很难做到每天的表现都一样稳定(因为医生的情绪波动会影响判断的准确性)。这位高中生做了一件什么事呢?她统计了上百万份病例,写了一个程序,在 X 光片和 CT 图像上圈出那些可疑的部位,准确率达到了 98%,这比靠经验的传统方法要高出很多。当然,她使用的几百万份病例在信息处理从业者看来算不上太大的数据,但是对于医疗行业的人来讲,就已经是非常大的数据了。她的研究成果获得了当年Google科技竞赛的第一名

第二个例子是微软大数据应用的故事。保险公司发现很多急诊病人在出院后不久,又被送回了急诊室。在美国急诊的费用非常高,对保险公司和个人都是一笔不小的负担。保险公司和医院一起收集了大量病人的信息,交给微软公司从事大数据工作的科学家和工程师分析,看看能否找到什么原因或统计规律。微软的工作人员用机器学习的方法抽取和分析了上万种特征。最后他们发现,如果一个病人在第一次进急诊室后给打了点滴(在美国,除非特别需要,医院很少给病人打点滴),几个星期后被送回急诊室的可能性极大(可能是因为病情确实很重了)。除此之外,他们还找到了其他一些重要特征。因此,对于有这些特征的病人,只要在他们出院后定期跟踪和关注,就可以大幅减少他们返回急诊室的几率。这样医疗的费用就可以降低不少。要训练具有上万个特征的数学模型,没有多维度的大数据是做不到的。

从上面这些例子中,我们可以看到大数据对信息产业以及其他产业的重大影响。现在,我们对大数据的重要性来做一个总结。首先,只有当一些随机事件的组合一同出现了很多次以后,才能得到有意义的统计规律;其次,大数据的采集过程是一个自然的过程,有利于消除主观性的偏差;当然,更重要的是,只有多维度的大数据才能让那些原本有联系,但似乎联系又不太紧密的事件反复出现,然后发现新的规律。最后,它可能是解决 IT 行业之外的一些难题(比如医疗)的钥匙。

———————————————

发自知乎专栏「文明之光

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s