凌琦:大数据的开放和标准化需要并行推进
- +1 你赞过了
【天极网信息化频道】2014年12月10日Cloudera公司于正式宣布在中国设立分公司,这标志着Hadoop大数据在中国市场正在受到全球厂商的关注。Cloudera可以说是Hadoop大数据的领军企业,而近日天极网记者有幸采访到了Cloudera全球副总裁大中国区总经理凌琦,就Hadoop大数据进行了深入交谈。
此前凌琦曾长期担任英特尔行业合作与解决方案部的负责人,对于担任Cloudera大中国区总经理一职是他坦言是兴奋的,他表示,在IT行业里面做了很多年,经历了很多技术变革。从去年甚至更早的时间大家都在谈论大数据的事情。大数据成为一项备受关注的技术,包括新技术的出现以及新厂商的介入等等,其发展历程应该说才刚刚开始。大数据是一种超越以往的计算模式,包括面向所有类型数据的存储,管理,挖掘,分析,机器学习、搜索等。目前对于大数据有着多种的认识,有的从系统架构看,有的从用户应用角度看,但是不管从何种角度看,大数据是企业实现数据价值的必由之路。凌琦也表示,在新的职务上存在各种挑战,但是他有足够的准备去应对。
凌琦表示,虽然Cloudera在中国拥有本地注册公司是2014年的事情,但是中国用户接触Cloudera的技术要早于这个时间点,很多中国用户在此之前已经在使用Cloudera的Hadoop发行版本。Cloudera是一家创新型的创业公司,公司员工不到一千人,但是业务具有非常强的增长性。Cloudera发展Hadoop技术也是从美国本土起家的。因为美国的企业应用和IT架构比较成熟,集中于成熟市场有利于公司早期业务的发展。但是进入2013年,Cloudera意识到Hadoop的企业接受度进入到一个新的阶段,并且Hadoop技术开始实用化。Cloudera开始在欧洲、日本和亚太地区开始设立分公司。
谈到为什么Cloudera在2014年才在中国建立分公司,凌琦说,这可以说是一种机缘巧合。我们都知道在2014年三月份,英特尔投资了Cloudera,以7.4亿美元收购Cloudera的18%股份。英特尔是具有前瞻性的公司,在两三年前英特尔就已经在关注Hadoop技术。在中国,英特尔组织研发人员发展了基于英特尔架构的Hadoop发行版本,并有经过几年的发展已经积累了一定的客户群。
在投资Cloudera后,英特尔决定合并英特尔的发行版本到Cloudera的版本。英特尔集中于技术开发,Cloudera在技术开发外,也专注于产品开发和服务支持。对于使用英特尔的Hadoop发行版本的中国客户,英特尔建议尽快转移到Cloudera发行版。在英特尔和Cloudera开发人员的共同努力下,Cloudera最新的Hadoop发行版CDH5.3已经包含有原先英特尔发行版的所有特点及功能。这无疑就加速了Cloudera在华成立公司的进程,所以2014年就成为Cloudera落地中国市场的一个重要时间点。
凌琦在访谈期间表示,Cloudera和英特尔之间的关系可以用强强联手来形容。企业IT通常涉及基础架构、硬件和软件。对于英特尔来说,底层基础架构才是其最核心的竞争力。目前英特尔架构在互联网数据中心和企业IT架构中已经成为一个事实标准,如何在英特尔架构上提供最佳的软件和大数据处理是英特尔需要解决的。
英特尔和Cloudera合作为企业客户提供经过优化的在x86架构上运行的大数据处理软件,这让采用英特尔架构的客户不用再担心大数据处理问题。而对于Cloudera来说,英特尔在行业市场和企业客户方面的品牌度和资源是Cloudera最看重的,这无疑会加速Cloudera产品和服务在企业市场的普及。
对于英特尔和Cloudera合作优化Hadoop在x86架构上大数据处理能力,这是否意味着Cloudera的产品只是针对x86平台?凌琦表示,Hadoop平台是开放的,但是作为一个软件公司如果想让产品在更大范围被使用,就要选择用户群最大的架构平台。从目前来看,x86架构是当之无愧的。Cloudera的Hadoop版本是针对x86架构进行优化的,并且得到了英特尔的支持。
目前Hadoop生态圈存在众多的Hadoop发行版本,并且有些版本已经超出了开源Hadoop的用户协议变成厂商的专属产品。凌琦对此表示,Cloudera 的发行版是根植于Apache基金会的Hadoop开源版本之上,并针对核心Hadoop进行优化和丰富文档信息以及外围工具。开源版本的Hadoop提供了一个可供开发的平台,作为厂商发行版本需要在Hadoop工具、管理、界面和优化上进行卓有成效的工作才能赢得客户的青睐。
作为Hadoop分发版本,厂商提供的管理工具和客户在该平台上的应用数量是其胜出的关键。凌琦以Linux发行版本为例表示,作为较早的开源社区项目,Linux发行版本数不胜数,但是目前我们能在市面看到的主流版本也就是那么几个,比如RHEL和SUSE。
Cloudera的Hadoop版本也遵循这样的标准,那就是为客户提供最好的工具开发环境和客户支持。Cloudera的CDH提供了最好的集成和支持性工具,此外开发人员关注的文档信息,Cloudera版本Hadoop的文档是最完善的。然后是合作伙伴数量,目前Cloudera的合作伙伴数量超过了1200家,这对于平台上的应用开发和客户服务支持提供了良好的生态环境。
开源是一种技术,但是技术发展需要标准。而能不能成为标准关键是看对于开源社区的贡献,而对社区贡献也决定平台的发展前途。Cloudera的开发人员发起并推动了多个开源项目,公司中有近百位社区代码的最终贡献者,这也就意味着Cloudera对Hadoop社区和整个技术演进的发展方向有非常大的贡献和影响。
对于开源和商业模式的关系,凌琦表示它涉及到Cloudera公司的发展理念。开源是未来的大方向。只有开源,客户才觉得你的东西没有猫腻。开源也给基于社区的创新带来了源泉,每个人都可以贡献自己的力量,为技术的发展带来更多的想法。开源遵循标准则有助于客户不被厂商锁定,让使用者有权选择他们认为最合适的产品和厂商。
凌琦强调,开源和标准是两回事,开源不等于标准,标准也不见得是开源的。开源并遵从标准,对于客户来说,他可以放心采用,因为知道里面是什么东西。同时对于整个技术方向也有很好的了解和掌控,因为整个社区都是开放的。如果是标准化的东西,不会被某一个厂商锁定。因为一旦被某个厂商锁定的话,即使是开源的,客户的选择权也会受到限制。但是如果你符合一定标准的时候,如果你不做,就有其他人来做。
这就带来一个问题,开源厂商如何保持竞争力?开源厂商应该关注数据平台的稳定性和数据的可迁移和可维护性,业务重心放在工具、管理和特色应用的创新上面。以Cloudera来说,如果我们提供的附加价值不能满足客户的需求,那么客户是可以自由选择其他更好的工具的,客户是不被限定在Cloudera这个平台上。Cloudera的数据平台是开放和标准化的,客户不用担心数据问题,Cloudera精力是放在管理工具和服务上面。
目前Cloudera的三个核心业务,那就是企业版的软件许可、专业服务和人才培养。企业版的软件许可和工具软件这个很好理解,那就是针对企业应用进行优化并包含相应工具和服务的软件版本,这也是Cloudera的核心。另外就是针对有的企业缺乏Hadoop维护人员,Cloudera提供专业的技术服务帮助企业部署和运维Hadoop。最后就是人才培养,Cloudera会基于大数据相关课程开展认证培训服务。Cloudera的大数据技术相关的认证培训含金量非常高。拥有Cloudera认证可以非常轻松找到相关工作。认证培训也为Hadoop大数据生态圈进行人才培养。
对于Cloudera和云计算提供商CSP的合作,凌琦表示,数据中心业务和企业IT的趋势是云和大数据,云计算提供一个基础架构提供按需的存储和计算资源。大数据是应用,只有把云计算和大数据结合在一起才行,通过云计算降低成本,利用大数据进行挖掘实现价值提升。Cloudera在国外已经和亚马逊AWS以及微软Azure进行合作,在这些公有云平台上运行基于Cloudera的Hadoop平台服务。对于国内的情况,凌琦表示在寻找国内的云合作伙伴,不过他也表示,这个过程不是一蹴而就的。从中国的角度来说,在云平台上面如何提供大数据服务可能还需要花一点时间,而且基于公有云的大数据服务主要对象是中小企业。对于大企业来说,基于自有数据中心的私有云业务更受欢迎,这方面的业务进展可能会快些。
凌琦也点评了目前比较火的Spark,他表示,Spark的兴起代表着Hadoop的内涵和外延一直在不断扩大,这也从侧面证明了Hadoop的生命力。Hadoop产生的背景是大数据存储和管理掘数据价值,数据收集后再进行批处理。后来数据处理不再局限于离线数据,而是实时数据和流数据,并且需要支持现有的数据查询处理语言也就是SQL。Spark从某种意义上是一种应用架构,其底层仍是HDFS存储系统。
在访谈最后,凌琦总结了关于大数据的看法。大数据不同于以往的应用模式,以往应用是首先针对于某个问题然后建立架构。大数据是建立在已有大规模的数据之上提供新的应用和服务,这就是互联网厂商首先开展大数据应用的原因。互联网企业最先具有这些大数据,然后从大数据里面挖掘出价值来。比如说对客户360度的行为方式认识,业务经营分析 等,这些其实都是大量数据积累所产生的,如果抛开了基础设施和大数据的平台,直接来谈大数据,实际上你很难讲得清楚到底能够得到什么样的好处,这个是跟传统应用不一样的地方。 企业要想开展大数据必须要首要建立完善的基础设施平台。
对于大数据厂商和产品选择,凌琦表示企业大数据应用应该建立在一个稳定的、可靠的、安全的平台上面去。开放对于客户来说意味着未来的方向是有保障的和清晰的。同时标准化使企业在未来开发新应用的时候,能够有坚实的平台。如果说每个厂商都做自己的东西,没有一个标准化的过程,最后这个客户就会被锁定,锁定了之后,很多开发工作你就得不到整个社区的支持。大数据的开放和标准化需要并行推进。
凌琦也对中国大数据市场提出了期望,中国大数据生态圈需要中国本地应用厂商关注和构建,特别是在构建大数据应用方面。因为大数据应用最先集中于金融、政府、电信等行业,而在智慧城市和电信等行业,中国市场具有不同于国外的使用模式、消费模式、行为模式,这些只有立足于中国本地的厂商才能真正体察到,相关的应用开发也需要了解国内应用环境的厂商来做。希望看到更多的满足中国企业需求的应用,能够使大数据的价值充分发挥出来。