从开源贡献和人工智能两层面聚焦Cloudera中国区市场发展

67

互联网时代,催生了电子商务、数字化营销、O2O、P2P这些热词。

移动互联网时代,互联网+、共享经济、云计算、移动互联网、虚拟化成了这个时期的标签

物联网时代,大数据、Hadoop、非结构化数据、Spark、容器、Openstack、万物互联、数字化转型、人工智能这些词汇几乎成了媒体、厂商、大会等科技圈里无人不提的。

对于今年来说,毫无疑问,人工智能是最火。那么,在人工智能时代,Hadoop是否还有其一席之地?对此,Cloudera作为Hadoop系统的首创者组织,Cloudera大中华区总经理及公司副总裁凌琦迎合站在全球市场的高度,揭示了Cloudera中国区市场发展战略布局以及对技术趋势的解读。

2014年12月10日,Cloudera正式进入中国市场。短短两年多时间,Cloudera已有一个完善的全国布局和客户基础。截止目前,其客户人群主要集中在大型企业,Cloudera内部称为“ Global 8000”。客户主要分布在几个领域:金融(银行、证券、保险业)、电信以及制造。

在凌琦看来,Cloudera是一个软件平台厂商,主要是针对大数据、非结构化数据的管理,对于机器学习和人工智能的支持。Cloudera会和生态合作伙伴一起共同为客户打造更具有价值的解决方案。目前,Cloudera在北京、上海、广深等地区结交合作伙伴200余个,专门建立服务于客户的支持体系,作为7×24小时客户支持体系的一部分。

谈到人工智能和机器学习对Cloudera的影响,凌琦结合Cloudera的产品布局,做了相应解答。

Cloudera在人工智能进化中扮演什么角色?

凌琦认为,人工智能并不是一个新的话题。对比人工智能的进化,主要体现在以下两方面:第一,计算能力提升了;第二,更重要的是大数据的支持。通过机器学习的模型,投入大量的数据进行培训和训练,最后形成一个在实际的应用环境当中可以使用的模型。

同时,机器学习也产生了变化。第一是计算成本的降低;第二是整个数据量的增加。

毫无疑问,人工智能需要大量的数据。数据获取、实时分析处理、数据生命周期等方面都需要进行管理。有了这些数据之后,数据科学家运用各种各样的分析和人工智能的模型进行机器学习的训练和模型的验证,这是一个循环的过程、不断在改进的过程。最后,把它应用到生产环境当中去。

在凌琦看来,应用到生产环境包括对生产环境的实时管理和运维,以及通过对生产环境当中所取得的数据的离线分析,再一次丰富数据、改变它的模型。看整个过程能够发现,如果仅仅谈到人工智能,其实很大程度上是在于机器学习和分析。

对于整个流程,企业需要很大程度上在数据准备以及最后的运营管理部分投入。一个能够支持机器学习和人工智能的好的平台,必须要满足这些功能:各种环境下的支持,包括公有云和私有云的支持;以及良好的扩展性,即有很好的弹性;成本、以及安全性和运维的支持从这个角度看,Cloudera的数据管理平台,从提供数据、到管理数据再到清理数据,实际上Cloudera为人工智能、机器学习提供了一个很好的运营环境。

66

除此之外,人工智能对于Cloudera来说,不仅仅是机遇,根据凌琦的介绍,Cloudera在该方面已经全方位布局并取得了进展。

目前,Cloudera的业务包括三块:一是以开源为基础的软件平台,称为CDH;第二,我们的专业服务;第三,我们的培训业务。

Cloudera的核心业务为软件业务,占整体业务收入的80%有余。Hadoop上的机器学习的平台,需要管理更大的数据,能够在一个完整的平台上使机器学习充分利用所有的数据,而不是一个分散的竖井式的数据对象。可以看到,现在整个平台所能够管理的规模越来越大,安全性越来越好。

第二,在机器学习上,大量使用新的分布式计算引擎Spark。Spark是现在在机器学习过程当中一个非常重要的计算引擎,当然也还有其他的一些计算引擎。Spark在Hadoop领域里面是最重要的机器学习引擎,在这个部分,Cloudera现在是最大的贡献者,同时也是最早把Spark引入到整个Hadoop平台当中,进行全面支持的厂商.