像人脑开发一样:大数据目前利用率仅为1%?
- +1 你赞过了
据了解,Ayasdi的联合创始人兼CEO Gurjeet Singht近日发布了一则惊人言论,他认为,目前被炒的火热的“大数据”,实际利用率只有1%,业界对于大数据的研究就像是万里长征只踏出了第一步。这不禁让笔者想到了“人类大脑利用率只有2%-5%”诸如此类的言论。
对于人脑的利用率有多少的问题,业界一直争论不已,目前也没有一个可信的数据来给出论证。我想Gurjeet的1%言论统计数据来源也无从考据,但他描述的这个现象背后所折射的行业现状,引人深思。
目前大数据的开发程度与人脑的开发程度相似
Gurjeet指出,在每天收集的1quintillion(百万3次方)字节的数据中,有99%的数据完全未被利用。研究人员只是从收集到数据中1%的数据进行分析和提取见解,而就是这1%被分析的数据支配了革新和见解。
至于数据利用率低的原因,可能来自多个方面。根据IDC的最近报告显示,目前的数字宇宙规模达到2.8ZB,它们还预计到2020年,这个数字将高达40ZB之多。随着全球新兴市场中不断增长的互联网访问量,以及各种终端设备产生的海量数据,数字宇宙的规模在近两年内实现了翻倍增长。科技的进步在与数据增长就像是在进行一场你追我赶的竞争中。
此外,除了有效数据之外,大多数新的数据是基于文档未被标记的非结构化数据,人们对此还知之甚少。2012年,若经过标记和分析,数字宇宙中23%的数据将成为有效数据,大约为643EB;但事实上只有3%的潜在有效数据被标记,大量的有效数据不幸丢失。
以上的种种问题,可以说都是数据使用的瓶颈所造成的。这种情况催生了大数据上的海量投资,而数据工作同样成为了最热门的岗位 —— 数据科学家,更是把私人数据分析服务提供商的估值推到数十亿美元。然而,你能想象到将分析的数据从1%提升到100%的前景吗?这就像是想象人类将自己的大脑充分开发一样遥不可及。
业界现状:对现有数据挖掘深度不够
对于目前的一个现状,Gurjeet认为至少数据的存储已经不再昂贵。通过使用类似Hadoop或Redshift的工具,即使查询大量的数据都变得非常划算。当然,这只是从硬件的角度上讲。
从实际应用来看,Gurjeet还是与国外主流的看法一致,那就是对现有数据的挖掘深度不够。他指出,我们愿意承担花销唯一理由就是数据中的见解可以释放价值。遗憾的是,我们失去了已收集数据中大部分的价值。虽然收集数据的成本可能会很高,但是无效分析带来的成本显然更高。当下并不存在什么工具可以直接从数据中提取见解,我们依赖着非常聪明的人去提出假设,然后使用我们的工具去证实(或者是否定)这些臆测。因为依赖的是臆测,这个途径存在着天生的缺陷。
“你已经拥有了足够多的数据:这里经常存在的信念就是 —— “如果我们拥有了足够多的数据,我们肯定会得到我们想要的。”太多的时间和精力被浪费在新的数据收集上,其实你可以用你手中的数据做更多的事情。”Gurjeet说。
下一代大数据解决方案的必备条件
基于查询的分析在某些方面确实可以起到很多作用,但是很显然并没有满足人们对大数据的期望,也无法应对数据增长的速度。
因此Gurjeet认为需要给予数据分析更高的期望,他认为下一代解决方案必须满足:
授权领域专家:数据科学家出现的频率已完全跟不上企业的需求。这里不妨这么做,停止继续为他们(数据科学家)开发工具;取而代之的是,给商业用户(生物学家、地质学家、安全分析师等)开发对应的工具。他们比任何人都明白问题出现的环境,但可能跟不上最新的技术或数学。
加速探索:我们需要更快的获得关键见解。事实证明大数据技术的处理速度并没有承诺的那么快。如果一直这样发展下去,可能我们永远都得不到足够快的关键见解获得速度,因为我们永远都不可能针对所有数据提出所有的问题。
人机整合:为了更快的获得见解,我们需要加大对机器智能的投资。我们需要机器能在数据点之间寻求连接和关系时担当更多的重任,让其给商业用户一个更好的起点去探索见解。事实上通过算法途径解决这些问题是完全可行的,并且人们本身永远都不可能发现大型数据集上的显著特征。例如在最近的一项研究中,通过算法查询网络搜索引擎日志发现了之前未报告过的药物副作用。
分析各种形式的数据:当然,研究人员需要分析结构化和非结构化的数据。同样我们需要认识非结构化数据的多样性:所有语言、声音、视频和面部识别文档。
Gurjeet最后还指出,目前我们只处于大数据演变的初级阶段。就像他在前文中所说,目前我们对这“1%”的数据仍然挖掘程度不深,留待开发的剩下的99%对于大数据行业来说,还有很长的一段路要走。
最新资讯
热门视频
新品评测
+1 你赞过了