Spark架构在大数据环境的核心位置找到用武之地

  为Spark架构提升可移动性

  Synchronoss Technologies公司同样将其大数据环境集中在Spark上。“我们非常将Spark作为我们的数据处理引擎,” Bridgewater, N.J.公司的大数据分析师Suren Nathan说,该公司给移动网络运营商和合作企业出售移动管理应用程序和相关的分析服务。

  大数据实现还包括运行了MapR分布的Hadoop集群;它起源于Razorsight Corp.,这是一家Synchronoss在2015年八月收购的分析提供商。Nathan负责Razorsight的部署工作,他说Spark最初是在几个主要批处理应用程序上作为MapReduce的更快替代品来使用的。这包括ETL数据集成工作,以及给Synchronoss分析团队提供该公司从其客户端收集的设备,网络和操作数据认知的数据分析项目。

  但Synchronoss正在寻求对Spark架构的使用进行扩展以用于更加实时的处理领域。到今年年底为止,它计划为诸如追踪移动设备使用的应用程序添加Spark Streaming,这样营销产品就能在事件发生点发送给客户,Nathan说。接下来他预计在2017年转向MLlib,这是Spark的集群学习库,用于自动分析应用程序——例如,检测公司网络中的欺诈活动和对移动设备安全政策的违反。

  除了用Python和Java来编写应用程序代码,Synchronoss还可以通过该软件的Spark SQL模块来进行SQL编程。在其周围的核心引擎和组件中,对于企业的大数据处理需求来说,Spark平台是一种一站式服务,Nathan说。“如果我们不使用Spark,那么我们就必须对所有这些东西使用一项不同的技术。”