云计算与大数据如何进行整合
- +1 你赞过了
我们必须要利用基础设施、必须要利用云计算给我们的服务器带来的一个机会,这是一个非常重要的元素,这样大数据才能给我们带来更大的价值。
EMC中国研发中心首席技术官陶波认为大数据是一个革命性的变革,“一个产业界革命性的变革是不经常发生的,需要多种元素的融合,当然也需要很多的运气。”这也间接地验证了在IT界的推断,大概每二十年左右IT界会发生一次大的变革。在过去70年代的时候PC机的时代,进入90年代的时候雅虎和谷歌为代表的互联网的应用改变了我们的生活,机器被连在了一起,人类被连在了一起,我们可以发布信息共享。进入2010年以后,进入一个新的变革,在企业变革中发生。在大的互联网企业中,已经被证明成功的技术被应用到企业IT中,而企业IT在全球是两千亿美元的市场,这样大的市场有新的技术融入的时候,这是一个新的变革的发生。
过去的一年中,各种各样的媒体,无论是技术性的媒体,还是金融性的媒体,或者很多分析公司的报告,各种各样的人都在谈论大数据。我们可以从搜索谷歌看到一些趋势,比如“big data”,2010年的时候搜索“big data”这个关键词有了很大的增长,到底是媒体的报道,还是“big data”已经成为生活中的关键词而被媒体加以报道呢?这确实很难讨论,但是我们确实已经生活在大数据的时代。
大数据的来源有多种多样,有动漫的数据,有常见的企业IT应用带来的数据。这些数据需要一个高扩展性的存储空间。存储了这些数据之后需要有一个平台管理数据。同时,能够创造一个平台使得科学家、分析师们一起工作。分析结果出来以后,还需要工具使得公司的决策层执行决策。
之后,陶波还为大家介绍了有关EMC在存储方面的内容。
大数据越来越大,在最新的IDC的研究报名,到了2012年的时候大量的数据会以文件的形式存储,大量的数据给我们提出了巨大的问题,我们怎么样管理这么多的数据?我们大量的数据需要具有高扩展性的存储空间,过去的几十年中我们看到的是纵向的扩展应用,大量的实践正灭纵向的扩展有问题,我们作为产品提供商或者应用者来讲,我们会看到在互联网领域很多用的都是横向的扩展。在谷歌有群集计算系统,它可以管理上百万台的服务器,分布在世界各个地方。以VMR为代表的做服务处理的公司,在虚拟化的基础上提出了解决方案,使得我们在服务器方面可以进行基于虚拟化的计算。而横向扩展体系结构在这几年发生了很大的变化,给大家带来了扩展性、边界等诸多便利。
Isilon是EMC在横向扩展中NAS的一个创新,它最大的有144个节点,15个PB的量。这个系统实现了每秒85GB/S的吞吐量和高于12.M的IOPS。有这么多的吞吐量的时候,IT管理人员就可以整合工作流,而这些简单方便的管理程序和系统的可靠性、自我修复能力,又会简化IT人员的工作。
Isilon的核心是OneFS横向扩展操作系统,OneFS的好处:单一文件系统,单卷高达15PB以上;原始存储利用率超高80%,减小了瓶颈的发生。文件条带化,当这个文件被写到多个节点上的时候,系统的冲量提高了,系统的吞吐提高了,无论是磁盘损坏或者节点的宕机都不会影响使用。Isilon在不同的领域的应用,比如索尼等大型的公司都在使用EMC的方案。
技术的聚合使大数据分析得以实现,虚拟化已经成为云计算的代表,X86的计算性能也在不断的增加。大量的数据可以被存储,大量的数据可以被处理,这里面“数据的聚合”我认为就是云计算,这些可以成为大数据分析得以成为现实的重要支撑。是不是有了这些我们就自然而然的进行大数据分析呢?我们还需要做一些什么呢?
陶波认为最需要的就是数据科学家,数据分析家将是将来最热门的行业之一,大量的行业比如政府、能源行业都需要数据科学家,这些数据科学家要不断的提出关键性的问题、对业务有重大启示性的问题。大多数数据分析家们是单独自己工作的,实际上他们在企业中应该是一个社区,阿里巴巴有一百多个数据分析家,不同的部门都对数据进行分析,共享对于数据的分析以及和数据管理员、企业管理层形成合作性的数据分析。
对于EMC来讲,有以下几个典型的产品:1,EMC HADOOP企业版;2,EMC GREENPLUM数据库;3,EMC GREENPLUM社区版,这些都便于大家对于数据分析探讨有一个免费的版本,得以开展工作,使得大数据分析的工作更加深入到企业的各个方面。
今年5月份发布了EMC HADOOP版本,它主要进行实时、非结构化的数据处理,HADOOP社区变得越来越活跃,HADOOP是一个非常关键的渠道,它使得互联网企业非常流行的计算方式、分析方式进入到企业中。互联网有为了自己专门的业务所设计的一些程序和管理软件,透过HADOOP的形式,使得它进入到了企业中。
EMC的产品系列在HADOOP包括三个方面:Greenplum HD社区版;Greenplum企业版;Greenplum HD Data Computing Appliance。
在Greenplum HD中有一些核心的技术创新:可插拔I/O,可以用Isilon OneFS夺存储系统,也可以用Atmos等,提高效率和性能;实时处理可以实时数据交互和分析处理;在容错方面,消除名称节点的单点鼓掌,作业跟踪其及其他关键组件方面有很多优化。
它最大的亮点是Greenplum Database与Apache HADOOP强强联合,这样的一个一体机实现了结构化、非结构化数据之间无缝的集成。
Greenplum Chorus:首创企业数据云平台。云计算提供的最大的便利之一是缩短所需要使用计算资源的人、最终用户的时间,可以快速的自己工作。在云计算平台和大数据的平台,我们叫做企业数据云平台,它主要的内容是:自助式的调配、数据服务协作分析,客户同时部署Chorus和VMware、Greenplum数据库来创建在云里的自助式,它可以自我服务快速开始一个新的项目,这是一个云计算非常基本的价值,自我服务可以自己生成一个服务器,也可以生成一个沙箱,这个沙箱是整个被虚拟化的IT云计算平台上,也可以是在Greenplum的数据库上。同时,你可以把在企业云里面其他的原数据导入到自己的沙箱中进行操作。同时,我们还可以创造一个合作环境,比如你写一段R代码,对某一段数据有比较深刻的认识,你想做事情是把R代码跟大家分享,同时希望看到大家的评论,可以随时随地的进行自己的工作。在分享数据的同时要控制授权,避免私人数据被不适当的使用。
T-Mobile是全世界比较大的Mobile服务提供商,他们遇到了一些瓶颈,他们很想知道:我为什么会有客户流失?我做什么事情能够减少客户流失?但是现有的数据系统不能满足这样多数据分析。他们和EMC合作,装了EMC的企业数据平台,包括Greenplum的数据库和Chorus。当一个人离开T-Mobile去了其他的手机服务提供商之后,他们知道这个人和他的朋友和家人打了很多电话,这些相关人离开T-Mobile的平均值是原来的7倍。所以,当一个人离开T-Mobile,他们可以针对一些人做一些工作挽留其他的客户。
构建完整的大数据分析堆栈。分析工具集(业务分析、BI、统计等),针对数据的企业协作平台,专用于大数据分析,我们和云计算平台推出了企业级平台Chorus。
EMC作为大数据的信仰者和倡导者,我们也做了业界的很多推广工作,在今年5月份发布了“大数据创新奖”,我们希望发现大数据有什么样的应用场景、看到它对于明天有什么样的帮助。下面和大家分享两个例子,大家可以了解一下大数据在国外的不同行业有什么样的应用。
案例1:“数据英雄奖”得主,Silver Spring Networks—能源类,这家公司提供整套的设备和软件解决方案,最后形成无线网,把用户对于电力的使用情况送回到后端去,为电力供应商提供实时的数据,电力供应商也可以为终端用户提供实时数据,帮助企业和用户如何合理的使用电能。
案例2:Vivek Kundar,美国首席信息官——远见奖。Vivek Kundar出生在印度,1岁的时候去了非洲,从事了很多把技术应用到教育、公益事业、政府部门的工作。他汇集了将近两百家政府各个部门的数据,然后进行处理,处理之后可以允许个人进行使用,处理的结果也帮助政府部门在决策处理的时候提供相应的依据。由于他在这方面卓有长效的工作,我们授予了他远见奖,在美国国家政府像企业一样有CIO,我们希望在我们国家无论是中央部门还是地方部门,也很快的会有相应的信息技术官的出现。
最新资讯
热门视频
新品评测