毋庸置疑,迪士尼是一个巨大的娱乐公司,但是当它涉及到大数据平台,这位娱乐巨头看起来更像是一个初创公司。很多小公司,依靠坚强的意志和不凡的智慧,凭借一个小小的团队,使用Hadoop、NoSQL数据库和其他开源技术,完全能够创造出一个特有的大数据平台。无论结果是更好或者更坏,这样的大公司在进军大数据领域,意味着这是一种完全不同规则的“玩法”。
迪斯尼大数据技术和服务解决方案团队的负责人Arun Jacob,在上周四的波士顿的IE集团大数据创新峰会上,介绍了迪斯尼的大数据平台。不像其他的公司,迪斯尼选择打造大数据平台是从零开始,绝对不是从一个软件供应商那里购买软件。虽然高昂的成本是一个很重要的因素,但是最关键的还是灵活性的问题,这是作出最终决定的根本原因。
减量化,重复利用,再循环
为了保证给公司带来最大的价值,迪士尼大数据平台,凝结了每个员工的心血,它是每个人的一切,这是一项艰巨的任务。最初的时候,Jacob表示,“我们把我们自己当做是一个小型的咨询机构,仅仅是我们有东西要卖。”不过当一个部门想要使用该平台开发一个特定功能的时候,Jacob立刻行动了起来。
从架构上来说,通过这个平台和具有特定目的的组件,它能够对路径数据进行重构,或者说能够非常容易地替换组件,如果有更好的话。迪士尼大数据平台是基于Hadoop,Cassandra和MongoDB进行开发的。运营团队可以使用该平台来进行查看、分析和索引的错误消息,应用程序开发人员可以得到他们需要的高吞吐量,低延迟的数据访问,而分析团队有他们需要的高延迟数据的访问。
然而,尽管Jacob也想使用一套开源软件来降低成本,他确实有资本可以奢侈一下,这是大多数创业公司玩不起的——外包和不定期的新产品的预算。当他需要Hadoop集群的支持,他完全可以打电话给Cloudera。当需要部署Solandra(基于Solr和Cassandra的一个开放的源代码搜索引擎),他完全可以购买的企业版的DataStax基于Cassandra的产品,但是他没有这么做。
灵活性是不是免费的
Solandra的事件,实际上是为了权衡是不是需要使用免费的开源软件。“你可以为开源项目工作到深夜,你可以通过学习来运行它们,但是这没有任何任何意义。”Jacob表示,如果你愿意投入时间和精力,这些东西是完全可以克服的。
然而迪士尼这种规模的公司,有更多的问题必须要被克服。Jacob表示,在部署的过程中,虽然可以按自己的方式来解决容错、高可用性和安全性的问题,但是最终还是需要找出一种方式来实现这些东西。
适合大众的才是最好的
虽然可以把系统建立在所有的人都能够使用的开源软件上,不过这也意味着没有一个足够的框架来构建一个可扩展的和稳定的系统,而且该系统还必须满足成千上万的各种类型和各种水平的内部开发人员的需求。Jacob表示,对一个拥有六个人的创业公司来说,大家学习Hadoop的一个月,然后开始使用它进行部署大数据平台,这是非常容易实现的。但是对于一个大企业来说,这绝对是不可行的。
他的团队让部署变得容易
为了消除企业用户不能加载他们的数据到系统中的借口,他们只需要把文件以指向用户定制的界面。Jacob表示,迪士尼的数据平台,虽然以每天5TB的数据剧增,但是仍然有很多其他类型的数据需要存储。因为他们已经对技术进行了封装,Jacob的团队并没有谈及过多关于Hadoop和MongoDB的问题,仅仅是提及了分析和查询的部分。数据平台使用很多种的编程语言来构建客户端的框架结构,所以开发者可以跟平台进行交互,就无需编写REST风格的API调用。