如果用户愿意去使用免费开源系统这没有任何问题,但是如果用户需要我们的帮助,可以去订购Cloudera的商业版。这就是硅谷现在的开源文化,有越来越多的公司在做开源。开源的东西是免费的,但我们在不断提供增值服务。我们也需要有更多的客户认可这样的服务价值并愿意帮助Cloudera这样的公司在市场上存活下去,跟我们建立更长期的合作关系,支持我们的业务。
二、 关于大数据系统的应用,选择与困扰
5、如果我们现在有一个项目刚开始,面对这么多大数据系统,应该怎么选择一个合适的平台?
道克:这的确很难,我们可能需要去熟悉所有的系统和工具,需要更多的实验,去测试这些系统。在满足工作负载的前提下,比较在哪个系统工具上工作得更好。但幸运的是,这类测试的确越来越容易了,现在有越来越多的工具可以进行辅助。
但是真正在设计的过程中需要去考虑很多技术细节,比如系统处理速度和系统吞吐的平衡。这个过程更像是一门艺术,而不像一个技术。
迈克:你选Cloudera就行了,不用去想更多的(哈哈)。
6、王建民:我们现在碰到的很大问题是面对系统的版本升级,用户需要不断去升级他们建好的系统,Cloudera怎么看待这样的挑战?
迈克:当然,商业版的更新很简单,一键安装新的系统就好了。如果是开源的系统就会很难,因为开源你需要去选择一个适合的文件包,需要自己去重新搭建,需要自己去测试,而这些在Cloudera商业版里都已经帮你做好了。
道克:如果不兼容,就只能来找Cloudera,这样我们的商业服务就能有发展空间了(哈哈)。
王建民:看来这样的机会、这样的服务对于Cloudera而言是一个很有价值的业务。
迈克:我们是一家创新公司,所以首先我们是一群创新者,我们的首要工作是设立未来大数据系统发展的方向。第二件事,我们的确做商业软件,我们会把这些开源系统打包、测试,会在上面做很多工具,我们也会利用它来提供服务。
7、大数据服务的云平台未来应该如何选择?
迈克:在商业层面上各种主流的云平台Cloudera都支持,我们在北美和AWS、谷歌等都有合作,在中国将和腾讯、百度等有更多的合作,可以看到云服务市场增长非常快。
道克:如何选择云服务有很多因素要考虑。第一个是经济角度上,到底哪种方式更具性价比,并不是所有的公有云都比私有云更便宜。第二个是安全,虽然我们可以用多种加密的方式解决这个问题,让别人更安心,但是安全永远是影响抉择的重要因素。还有另一个问题,我们需要考虑得非常清楚,通常我们迁移大数据系统是非常昂贵的,所以我们在选择一个云的运营商之前,首先要意识到,这个运营商给我们提供的技术是不是我们需要的。一旦需要在这个平台上进行转换,是不是很容易操作。我能见到的最大错误就是选择了某个云平台之后被吃定,无法迁移转换。
迈克:我们选择开源有一个非常大的好处,因为底层的技术其实都是一样的,是完全兼容的。如果我们选择了不合适的云运营商,或者不合适的大数据商业软件合作伙伴,我们可以比较容易完成系统迁移。
道克:还有一个融合的问题。比如企业内部有架构存储一部分数据,同时在公有云上也存储一部分数据,如果我们选择混合云的方式,可能会让我们在处理数据时非常困难,因为这两个架构之间任一方向的数据迁移,都非常昂贵。是否需要把数据放在不同的地方,这也是我们在选择云计算架构时必须要非常认真考虑的一个问题。
8、如何去发掘Hadoop系统的应用性领域,尤其在中国?怎样去发现中国真正的大数据市场?
迈克:大数据分析、机器学习等技术发展,都在真实发生着,这些事情触发了我们会有更多的数据,需要更多的处理能力,需要有更多的分析应用,这样正是我们希望看到的市场需求。
2006年我代表Oracle来中国,当时正好是中国“十一五”开端的第一年,中国政府第一次在“十一五”的五年规划中开始强调创新,今年是2016年,是“十三五”的开局之年,中国政府不但强调创新,还强调了创业,我认为中国现在有一个非常好的开端。
对于Cloudera而言,在中国市场需要寻找更多的合作伙伴。我们看到像GM跟上汽合作为全球市场设计新车,中国已经出现越来越多的垂直细分领域,比如像电信、保险,有越来越多的中国公司在使用大数据,成为很好的行业范例。中国大数据的应用前景非常好,已经取得了令人刮目相看的成就。中国市场的体量非常大,增量也会很大,不只是大数据市场,中国在其它细分领域一定会出现更多更好的创新,会孵化出更多大数据的技术与应用。