要想预测大数据的走势,明确自己的关注点,Facebook是不二之选,因为它收集的数据可谓海量(100PB,也即102400TB)。而要想处理这些数据,Cassandra NoSQL数据存储+Hive查询语言+Hadoop分布式数据库是最佳拍档。此文谈到了大数据初创企业应该如何从Facebook身上学习自己的突破方向。
机遇之一:Hadoop大众化
通过Hadoop和NoSQL进行基础设施层创新是机遇一。
Facebook几乎把Hadoop运用到了方方面面,从朋友推荐到定向广告乃至于数据中心分析,不一而足,大数据被分割成了字节大小的碎片。不过,要服务好这一切意味着需要确保其各部门的用户都能够以一种有意义的方式跟Hadoop交互。
定制化的工具、接口及虚拟层为这个问题的解决提供了帮助。技术门槛降低以后,Facebook的非技术用户也能够利用Hadoop生成报表、查看分析了。帮助创建了Hive的几位前Facebook员工还推出了云版的Hive —Qubole,可以通过Hive的签名SQL接口提供对Hadoop的请求式访问。Facebook希望创建出有助于降低Hadoop使用难度的工具,把大数据的应用效率提高上去。
机遇之二:超越Hadoop
但是有时候跳出已有的框架(如Hadoop和NoSQL存储)也许也能够闯出一片新天地。这一切都取决于需求。大家用Hadoop是因为它是免费的、开源的。但是,要想实现自己的需求往往需要在Hadoop上面做大量工作。有很多大数据的问题跟Hadoop是无关的,所以另起炉灶也许不失为一种解决之道。Facebook的图谱数据库用的是MySQL,其开发TimeLine和Newsfeed的后台用的也是它,一切均应根据需要来选择。
不过对于初创企业来说,在选择应用开发平台的时候还是要有所权衡。Accel Partners的Ping Li的忠告是,够好是伟大的敌人。要想成就伟大,也许就得突破Hadoop。
机遇之三:做大,像数据中心那么大
Facebook今年8月推出了数据中心的一项深度存储新战略,打算从头设计数据中心,以期可以处理长期较少被访问的数据存储,而非比较稳定的web事务流。
这种变化绝非递进式的变化,跟过去的数据中心相比有着很大的不同。这种能源集约型的数据中心力图将计算节省下来的每一度电都分配给对电力需求要少得多的处理上,但是这些处理还是需要把数据交付给用户和分析引擎。这是一个巨大的挑战,因为越来越多的企业已经意识到历史数据的重要性。
Facebook打算通过Open Compute项目将其设计开放,其中已有部分管理工作在Apache Hadoop项目中实现,这对于初创企业来说是个好消息,他们只需要做剩下的事情就行了。