大数据蔓延 需重新定位数据仓库策略
- +1 你赞过了
在计算机技术出现之前,人们一直苦恼于没有足够能力去处理大量的信息,IT技术给了我们自动化的系统和工具,从此我们可以去存储并分析大量信息。但是现在的交易系统已经发展到非常繁杂的阶段,包括互联网、传感器、移动设备在内的数据源每天都会产生各种各样的数据,有时这些数据就如同洪水猛兽般,吞没了不知多少公司的IT系统,多年前搭建起来的数据仓库架构已经无法再应对海量数据的压力。
企业的数据仓库团队正面临着巨大的挑战,管理信息海啸或者我们称之为“大数据”,需要技术人员平衡已有的系统和新近的工具以及技术。来自Forrester研究机构的分析师Brian Hopkins认为,要想处理好大数据问题,企业至少应该对旧有的传统数据仓库系统重新审视。他举例说,使用传统的中心辐射型连接进行数据集市分割,并将某种形式的大数据集成到一个集中式数据仓库系统中是非常具有挑战性的。目前的数据仓库系统主要是应对结构化数据,但是所谓的大数据则更多的是指那些非结构化数据或者半结构化数据。
Hopkins表示:“从某种意义上说,大数据已经颠覆了传统数据仓库的设想。数据仓库以及商业智能环境的主要目的就是为了能够回答业务用户提出的具体问题,它包括对数据进行清洗,通过ETL过程将数据最终导入到报表中进行分析。因此可以说这样的方式,企业中只有5%的可用数据得到了充分的利用。然而更糟的是,有时甚至还要远远低于这个百分比。”
新的数据仓库策略
相比之下,大数据策略往往将精力放在一个更宽泛的信息范围之内。几年前那种大数据库、要求统一的概念已经逐渐消失了。另一方面,目标数据存储以及所谓的分析沙箱(Analytic Sandbox)是大数据环境下非常常见的,它们的复杂程度会对IT技术人员以及数据仓库团队造成很大困难。
TechTarget业务应用分析总监Wayne Eckerson表示:“随着大数据概念的提出,相信会有更多新鲜的模式出现,有些甚至是与我们传统概念截然相反的。但是分析大数据一定是非常困难的,因为量太大,而且成本颇高。这也就是为什么有很多企业在寻求更新的技术,比如开源Hadoop MapReduce。”
来自一家咨询机构的顾问Richard Winter认为,大数据为企业提供了更多的机遇,这些企业善于从数据中洞察业务趋势,这在以前是不可能出现的。他举例说,一家“智慧”的空气净化机企业开发出治疗哮喘的方法,它们的产品内置有无线接收发送设备,能将病人数据、时间以及地点传送到数据库中。通过信息整合,空气净化机甚至可以提醒患者附近是否有潜在的过敏源。这样的设备还可以帮助医疗研究机构更好地分析哮喘症状。
数据量带来的挑战
当上面提到的产品获得广泛应用之后,来自数据的压力就会随之而来。制造商需要对这些数据进行存储,处理并最终提供给系统进行分析。
数据仓库专业人士还需要理解大数据并不只是在数据量这一个层面上,TDWI机构的数据分析师Philip Russom表示,其他的大数据属性同样非常重要,比如它的变化多样,包括Web点击流数据、呼叫细节记录、销售网点数据、社交媒体文本等。
Philip Russom认为,当企业面临管理大数据平台时往往会像车灯前举足无措的小鹿(焦虑不安),他们能够了解到大数据的潜在价值,但是又苦于管理的复杂程度,特别是大多数数据不能够通过传统数据仓库来处理的时候。
为了避免上述的情况,专家建议可以试着将大数据管理的目光放到更小的范围内,比如客户行为这样高回报率的领域,然后可以利用传统数据仓库和新技术新工具的混搭来完成最终的目的。企业关注的话题不一定要大而全,小而精反而更好。
最新资讯
热门视频
新品评测