像人脑开发一样:大数据目前利用率仅为1%?
- +1 你赞过了
据了解,Ayasdi的联合创始人兼CEO Gurjeet Singht近日发布了一则惊人言论,他认为,目前被炒的火热的“大数据”,实际利用率只有1%,业界对于大数据的研究就像是万里长征只踏出了第一步。这不禁让笔者想到了“人类大脑利用率只有2%-5%”诸如此类的言论。
对于人脑的利用率有多少的问题,业界一直争论不已,目前也没有一个可信的数据来给出论证。我想Gurjeet的1%言论统计数据来源也无从考据,但他描述的这个现象背后所折射的行业现状,引人深思。
目前大数据的开发程度与人脑的开发程度相似
Gurjeet指出,在每天收集的1quintillion(百万3次方)字节的数据中,有99%的数据完全未被利用。研究人员只是从收集到数据中1%的数据进行分析和提取见解,而就是这1%被分析的数据支配了革新和见解。
至于数据利用率低的原因,可能来自多个方面。根据IDC的最近报告显示,目前的数字宇宙规模达到2.8ZB,它们还预计到2020年,这个数字将高达40ZB之多。随着全球新兴市场中不断增长的互联网访问量,以及各种终端设备产生的海量数据,数字宇宙的规模在近两年内实现了翻倍增长。科技的进步在与数据增长就像是在进行一场你追我赶的竞争中。
此外,除了有效数据之外,大多数新的数据是基于文档未被标记的非结构化数据,人们对此还知之甚少。2012年,若经过标记和分析,数字宇宙中23%的数据将成为有效数据,大约为643EB;但事实上只有3%的潜在有效数据被标记,大量的有效数据不幸丢失。
以上的种种问题,可以说都是数据使用的瓶颈所造成的。这种情况催生了大数据上的海量投资,而数据工作同样成为了最热门的岗位 —— 数据科学家,更是把私人数据分析服务提供商的估值推到数十亿美元。然而,你能想象到将分析的数据从1%提升到100%的前景吗?这就像是想象人类将自己的大脑充分开发一样遥不可及。
业界现状:对现有数据挖掘深度不够
对于目前的一个现状,Gurjeet认为至少数据的存储已经不再昂贵。通过使用类似Hadoop或Redshift的工具,即使查询大量的数据都变得非常划算。当然,这只是从硬件的角度上讲。
从实际应用来看,Gurjeet还是与国外主流的看法一致,那就是对现有数据的挖掘深度不够。他指出,我们愿意承担花销唯一理由就是数据中的见解可以释放价值。遗憾的是,我们失去了已收集数据中大部分的价值。虽然收集数据的成本可能会很高,但是无效分析带来的成本显然更高。当下并不存在什么工具可以直接从数据中提取见解,我们依赖着非常聪明的人去提出假设,然后使用我们的工具去证实(或者是否定)这些臆测。因为依赖的是臆测,这个途径存在着天生的缺陷。
“你已经拥有了足够多的数据:这里经常存在的信念就是 —— “如果我们拥有了足够多的数据,我们肯定会得到我们想要的。”太多的时间和精力被浪费在新的数据收集上,其实你可以用你手中的数据做更多的事情。”Gurjeet说。
最新资讯
热门视频
新品评测