Cloudera对于Apache Hadoop的变与不变
- +1 你赞过了
【天极网信息化频道】谈到大数据,我们不得不说Hadoop。Hadoop,正式诞生于2006年1月28日,是多个开源项目的生态系统,它从根本上改变了企业存储、处理和分析数据的方式。
正值Hadoop 10周年生日,Cloudera在京举行了Hadoop十周年暨Cloudera新春媒体见面会。会上Cloudera全球副总裁、大中华区总经理凌琦分享了Hadoop及其演变的历史,阐述了Cloudera商业模式和行业领先地位,以及Hadoop在2016年的展望。
Cloudera CDH与开源Hadoop
凌琦表示,经过十年的发展,Hadoop加入了越来越多的内容。2015年又是Apache Hadoop标志性的一年,Spark已经是Hadoop整个生态环境当中非常重要的组成部分,Kudu全新储存能力也加入进来,Hadoop的安全性也得到了提升。
Cloudera的Hadoop发行版本叫做CDH,CDH与开源的Hadoop有什么区别呢?凌琦说,CDH是基于Apache Hadoop,但是在此基础上又进行了改进。第一,开源Apache Hadoop由很多项目组成,但是各个项目软件之间是不同步的,如何使这些软件能够互相工作在一起,以及保持这些软件互相之间的兼容性,这就是Cloudera CDH要做的事情。第二,Hadoop集群规模越来越大,承载的软件越来越多,如何管理是个大问题。Cloudera Manager可以实现对整个Apache核心计算和存储的管理,这也是CDH商业版本当中的一部分。
此外,Apache Hadoop版本迭代也会给企业带来困扰,在每个新的Apache的版本出来之后,Cloudera都会通过完善的测试决定商业发行版的架构。凌琦表示,Cloudera每个版本都对应Apache的版本,但是又有它的增强部分。最为重要的是Cloudera有大量的工程师给Apache贡献代码,所有这些增强部分的改变,最后还会回到主流当中去,从而保证Cloudera发行版和Apache Hadoop版本的一致性。
凌琦总结说,Cloudera的Hadoop发行版本有两个部分,一个是把Hadoop开源系统项目最稳定最新的版本打包,并对相关组件进行测试使之配合,最后形成一个易于使用的完整版本。另外一个是经过测试和认证,Cloudera修复主干中的某些Bug部分或者添加新的特性,最后形成一个经过测试的完整的、能够适用于关键业务应用的版本。
Cloudera构建Hadoop生态圈
目前Hadoop已经成为一个大数据平台软件,围绕Hadoop的生态圈日趋完善。在这些围绕Hadoop的项目中,Cloudera贡献了很大一部分,并被Apache软件基金会所认可。
Cloudera定位是企业级的大数据分析存储、分析和管理平台。目前Cloudera在上海、北京、广州都有办事处没,能够直接对中国客户提供支持。据凌琦介绍,Cloudera的业务主要三块,大数据软件,大数据咨询和专业服务,还有教育培训。
在合作伙伴方面,Cloudera和硬件厂商的合作,比如戴尔,另外还有英特尔,2013年,英特尔投资了Cloudera,现在是Cloudera最大的机构投资者。英特尔Hadoop大数据的团队和Cloudera形成了一种合作的研发模式,这两家公司合作的研发,所贡献的代码占有现在Hadoop贡献代码的54%。
Cloudera一方面与ISV和SI等软件合作伙伴合作,另一方面硬件厂商开展一体机的OEM合作。比如,在Teradata一体机里面的处理非结构化数据的部分就是由Cloudera提供。凌琦透露,Cloudera与国内相关硬件厂商的合作也在紧锣密鼓进行中。
对于开源,凌琦补充说,如果一家厂商做的东西只有自己知道,不开源,对于客户来说,实际上一旦买了你的东西就绑定了,对最终用户来讲都是一个风险。所以遵从开源的游戏规则,多个厂商进行互相之间的合作,对最终用户来说多个选择,这是一个好事情。
最后,凌琦介绍了Cloudera对于2016年Hadoop大数据技术趋势的展望。
Hadoop将更加隐形
Cloudera联合创始人兼首席战略官Mike Olson曾表示,用户真正在乎基于Hadoop的平台和能达到的业务结果,而不是Hadoop本身。Hadoop之初的用例定位就是一个经济型的深度存储和数据处理平台,我们陆续看到如今大大小小的企业都在用这个平台进行创新部署,涉及的应用也越发广泛。
凌琦表示,目前很多行业都在应用Hadoop创新自身的服务。比如英国电信通过Hadoop实现对客户跨业务形成360度视角,重新调整了与客户的交互行为方式。
Hadoop技术将被广泛使用
Cloudera通过学术合作伙伴(CAP)来培养未来所需的Hadoop技术专家,目前已经有超过100名合作伙伴,这无疑是一个重要的里程碑。凌琦表示,对于企业来讲,更大的挑战是如何判断和评估Hadoop的最佳适用。就自身而言,我们将尽可能的简化产品。比如,Cloudera Navigator Optimizer让工作负载更加可视化,有助于客户了解如何最大化利用Hadoop平台,减少开发时间并提高性能。
物联网机遇下的云
2015年物联网成为大数据时代以来出现频率最高的词汇之一。Cloudera的客户长期以来一直活跃于物联网领域。举个例子,Vivint使用Cloudera为用户提供物联网解决方案,提升了家居联网的同时也改进了服务体验。另一个例子,Omneo推动工业化物联网领域,实时优化供应链,通过这种方法节省了1500万到2000万美元。
对于Hadoop而言,云的法则同样适用,因为数据越来越多地从本地迁移到云上。
数据到底是存储在本地还是云端?有调查显示,45%的人回答到他们的所有数据都是本地存储的,大概一些企业也是如此。相反,只有33%的人希望在2020年前,他们的数据可以实现云存储。这充分说明数据对混合云模式的转变,Hadoop部署同样也会受到云计算模式的影响。
此外,还有调查显示54%的调查者表示在云上Hadoop的复杂性是导致他们不用AWS云部署的原因。针对此种情况,Cloudera投资开发Cloudera Director这样的工具来简化云部署技术,持续提高整个平台的易用性。
结语
经过十年的发展,Hadoop已经成为企业迎接大数据时代的最好工具。Cloudera则在Apache Hadoop之上针对企业的需求进行了定制化,这让Cloudera Hadoop既可以从开源社区获得源源不断的创新,又可以针对企业的实际需求提供按需定制的Hadoop服务。