大数据架构面临技术集成的巨大障碍

Grega Kespret是这家波士顿公司的分析总监,他说:“我们经历了许多尝试和错误。比较有挑战的是要设计一套架构满足业务需求,但还不能过度设计。”他提醒说,如果你做了,可能会以一片混乱而告终。

最开始的时候,Celtra公司通过网站访问者和S3中的其它可跟踪事件收集广告交互数据,然后使用Spark作为ETL引擎(抽取、转换和加载)聚合信息,分析MySQL中的运营数据用于报表。但是,原始的事件数据是很难分析的。Celtra公司增加了一套独立的基于Spark的分析系统,但是仍然需要该公司的数据分析师们团结一致去清理和验证事件数据,这个过程的工作是很容易出错的。

在2015年底的时候,Kespret和他的团队经过各种尝试最终放弃了其它技术,选择了Snowflake作为事件数据存储系统,然后把数据按用户会话进行组织之后会存储到MySQL,这样数据分析师用起来更方便。

Snowflake系统在去年四月份投入生产使用,比该软件软发布较早一点。Kespret说,下一步是要在Snowflake中存储数据,评估第二步ETL过程,然后处理数据存储到另一套MySQL数据库中。

大数据开发的“狂野西部日”

Hadoop合作设计者Doug Cutting认为,技术选择方案过多导致了构建大数据架构过程的复杂化。对于许多希望利用Hadoop及其同生技术的用户组织,“这真像是狂野西部时期的泡沫”。Cutting现在是Hadoop供应商Cloudera公司的首席架构师。

不过Cutting认为,大数据系统的益处也正体现于此——这种多样性带来了架构灵活性,支持各种新的分析应用,而且IT成本更低。因此,费一番周折实现集成也是值得的。他认为大多数问题是因为对这些开源软件的开发和部署流程不熟悉引起的。他说:“Hadoop很快就不会令人生畏,人们会习惯使用它的。”

或许是这样吧,不过雅虎公司(据声称是最大的Hadoop用户群)的IT经理们表示,他们并没有完全消除压力。Cutting曾在雅虎总部工作(位于美国加州Sunnyvale),那时候Hadoop在2006年刚启动。雅虎这家web搜索和互联网服务公司是该技术的第一家生产环境用户。目前,该公司(雅虎)的大数据环境有40个集群,混杂了HBase、Spark、Storm实时处理引擎和其它Hadoop相关技术。

Sumeet Singh是雅虎公司负责云计算和大数据平台产品开发的高级总监。他说,总的来说,围绕Hadoop建立的巨大技术生态体系对用户是有利的。Singh表示,Hadoop这个开源框架加速了技术开发的步伐,使IT团队可以集中精力规划和创造对他们公司有用的工具,而不必自己完成所有工作。“我知道有许多开源项目,不过不是每个人都能广泛接触采纳,这其中会有真正明确获益的赢家。”

大数据的世界并不总是阳光明媚的,Singh说:“总会有各种问题随之而来”,他的头脑快要被各种开源框架和大数据框架涉及的数不清的技术撑爆了。