Big Data专家:大数据问What比Why更重要
- +1 你赞过了
近日美国大数据权威专家麦尔荀伯格(Viktor Mayer-Schönberger)分享了大数据趋势。他认为,大数据三大特性,是巨量、杂乱和相关性,而不是一般常见的3V(Volume、Velocity、Variety)定义。如何从这些看似杂乱无章的巨量数据中,找出最适合的相关性,并以此来改变决策,帮助我们更了解世界,正是企业和政府所面临的新挑战。
麦尔荀伯格早年曾是名程序设计师,年仅20岁就创立一家防病毒软件公司,推出的防病毒软件一度获选为澳洲年度畅销软件之一。他在哈佛大学攻读法律,并取得伦敦经济学院经济硕士,而后对于大数据领域有着深入且广泛的研究,曾发表过上百篇专论和书藉,现为牛津大学因特网研究所教授,专攻网络治理与法规,并着有《Big Data》等著作。
麦尔荀伯格认为,经过搜集而来的大资料,往往具备有三大特性,第一就是拥有非常多的讯息量。
这边所指的「多」代表的是具有一定规模的完整数据,可透过搜集分析发现具有相关性的问题或现象。他以过去相机对焦为例,一般只有在对焦范围内拍出来的人物轮廓才会清晰,但范围以外的人物轮廓往往会是模糊的,但是改用一台可先拍照后对焦的光场相机,就能先将所有人物数据完整纪录下来,之后在决定照片要以谁为主角,也不需要花费时间重拍,还可以获得更多有关照片的细节。麦尔荀伯格认为,尽可能搜集越多的完整资料,也是同样的道理,搜集妥了以后再进一步决定用途。
麦尔荀伯格提出的大数据第二个特性是杂乱。相较于过去受限于测量能力的限制,能取得的数据往往不多,因此会注重数据的精确性。但是,当面对的是杂乱且复杂的大数据时,就不能再以过去传统少量数据的方式去分析,而是要有新的作法。他说,大数据要求的并不是一点错都无法容忍接受的精确数据,更多时候反而容许有测量误差的数据,只要透过分析可以得出有用的数据,就不用为了那一两棵树而放弃一整座森林。
比起问why,大数据更看重的是问What相关性
至于大数据第三个特性则是相关性,麦尔荀伯格解释,比起问“Why”的因果关系,大数据更看重的是问“What”的相关性。重要的是先了解,数据要告诉我们“什么”而不是“为什么”。他以美国知名零售商沃尔玛当例子,当他们在进行大数据分析时发现,每当飓风即将抵达前,当地居民除了上超市去买手电筒和电池之外,还会买了一堆被称为是Pop-Tarts的草莓甜点,这样的发现也替沃尔玛带来庞大商机,至于顾客为什么会买这些甜点就不是那么重要了。同样的道理,当亚马逊和Netflix 在推荐顾客产品时,同样也不知道为什么要推荐这些书或DVD影片,只要知道顾客会买单就好。
麦尔荀伯格举的另一个例子是语言翻译。50年代的美国计算机科学家,曾试图透过文法规则让机器大量翻译俄语数据,花了12年时间投入近数十亿美元,最终还是宣告失败。当时,IBM也在个人计算机加入更多语句和文法规则,并以此成功翻译了60个俄文短句,但因无法进行大量翻译也告失败,就算是在1990年时,IBM试图透过新开发的统计机器来翻译10年份的加拿大国会文件数据(含英法双语),尽管的确改善了机器翻译的质量,但最后因投入大笔资金却无法得到相应成果,只好退出放弃。
反观当时还是名不见经传的小公司Google,成立仅仅不到10年时间就完成了这项不可能任务,推出了翻译服务,而其采用的方式只不过就搜集了几千亿笔的网络数据来分析,其中有包括欧盟语言、网站语言、书籍和说明手册等五花八门的数据,尽管这些数据质量参差不齐,但透过汇整分析却能翻译出更为精确的语句。
麦尔荀伯格举的最后一个例子则是早产儿诊断,Carolyn McGregor博士率领了安大略理工学院与IBM的研究人员,共同开发一套身体健康追踪系统,可以实时追纵早产儿的健康资料,包括像是心跳、呼吸、体温、血压等身体症状,并且每秒钟会回传1,260笔数据给医生。医生透过这套系统可经观察妈妈体内婴儿的身体的细微变化,提早24小时前预测出是否为早产儿的可能性,以挽救更多的生命。后来Carolyn McGregor用大数据技术来分析这些资料后,还发现早产儿在严重感染前,反而生命迹象会有一段时间维持稳定,颠覆了过去一般认为早产而身体先恶化再感染的理论。倘若Carolyn McGregor只专注于研究身体恶化与感染间的因果关系,就无法得到这个发现。
从巨量机器假设找出最佳相关性
对统计学家来说,常见的研究流程是先有理论基础,接着是提出假设,最后再透过数据来验证,但在大数据上,麦尔荀伯格认为,原有研究流程变得不一样了。以Google的作法来说,同样都有一套理论基础,但Google却是透过程序自动建立了大量的机器假设(Machine Hypothesis),将所有可能的假设通通都放进来,再利用云端运算技术一次处理高达4.5亿个机械假设,从这些巨量的机器假设中找出最合理的相关性。
大数据核心价值:可重复使用、重组数据,发现新价值
麦尔荀伯格更指出,大数据的核心价值,在于可以重复地使用数据,而且是不断地重组可能的使用方式。他说,过去人们会因为特定目的而搜集数据,但在大数据时代,很多时候并不知道这些数据是否还有其他用途,像是“先拍照后对焦”的光场相机,往往是透过对巨量数据交叉分析后,才对数据运用有了新发现。就像装在车上的传感器,除了可用来找出目前那一个地段最容易塞车,日本东京产业技术大学也曾在驾驶座位装入360颗传感器,来搜集司机坐在驾驶座上的动作,只有符合登录臀部坐姿的驾驶才能发动车子,以此达到防盗功效。
又好比如说,Google曾经于2009年成功利用搜寻关键词来预测流感趋势,但后来预测却失准,麦尔荀伯格表示,最大原因就是没有考虑到现实及人类行为环节的改变。而刚推出的Google Glass眼镜,“其实Google真正的目的是要了解人们到底在看什么?关心什么?透过运用这些搜集而来的数据进一步去分析预测出消费者的行为。”他说。
荷兰手机公司藉由卖天气数据,开创新的事业
大数据不只可帮助企业内部决策,还可协助开创新事业。麦尔荀伯格以国外几个大数据应用成果作为例子,像在荷兰有一家手机公司面临了低价竞争而无法获利时,他们发现了自家所建造的基地台讯号,无形中会因周遭环境气候而改变,这个发现让他们反而可以卖天气数据,转换思路来开创新的事业。劳斯莱斯不只是汽车公司也是全球第二大的飞机引擎制造商,透过在大型客机内的喷射引擎,加载飞行管理系统来监控大量的引擎运转数据,加以分析后能预测出引擎的寿命,劳斯莱斯并以此来提供预测性的维修服务。
美国零售商Target则是另一个典型的大数据应用,Target搜集了大量女性顾客的购物行为,运用大数据分析找出各种相关性,像是他们分析后发现,女性在怀孕三个月的时候,会开始购买某一类产品或对特定品牌产生忠诚度,像是无香味的乳液或各类营养补充品。反推回来,当女性开始出现这个行为时,也可以用来预测出女性是否已有怀孕迹象,甚至还能因此准确预测出小孩出生的日期。
尽管透过分析演算,大数据可以用来改变决策的方式,创造出新的商业或经济价值,甚至可作为预测人类行为的强大工具,但麦尔荀伯格也提醒,使用这些数据必须很小心,切勿忘记人有自由意志,一旦过度依赖这些预测数据,一方面可能发生像是在《一九八四》小说中无所不在的老大哥(Big Brother)监控,造成对个人隐私的侵犯。也可能作出不公平的预测,发生了如电影关键报告中还未犯罪就遭到逮补的情节。
他说,如何善加利用大数据和使用工具,去帮助人们更了解这个世界,是政府和企业所面临的新挑战。
最新资讯
热门视频
新品评测