Hadoop迎来Spark Stream 激发大数据应用新变革

柏安娜表示,英特尔的可信分析平台(TAP),是一个开源的平台级服务,专门适合数据科学家和应用开发人员,能够为用户提供预测性的模型和数据模型服务。“我们欢迎大家参与TAP做出贡献,使得整个分析解决方案开发和部署变得更加简便,以此为基础,来为数据分析市场提供更多服务。”

这些产品全面支持当前蓬勃兴起的数据分析类应用,例如机器学习。科大讯飞研究院副院长王智国博士指出,科大讯飞的人工智能开放平台每天在线交互达到近20亿次,这些工作都离不开一个强大的计算平台。“我们和英特尔更加深度的合作,在源头上进行软硬件一体化整合,必将能够创造出更多更先进的人工智能解决方案,共同推动产业发展。”

批处理本是大型机时代的主题,近十年来随着HadoopMapReduce的关注度逐渐增加,批处理现在又重新成为热门主题。但是 Hadoop分布式供应商的高级管理人员认为,ApacheSpark和其它流处理架构正在改变现状。

JackNorris是MapR公司前任首席营销官及现任数据和应用高级副总裁,他认为,随着ApacheSpark加入Hadoop,我们将看到更多实时应用和批处理架构,事件流与大数据存储是配套的。

MapR公司与Hortonworks公司、Cloudera公司一起共同打造Hadoop并带来了商业价值。而现在,SparkStreaming和其它相关技术的出现给大数据应用带来了变化,这似乎刺激了Hadoop生态系统新一轮的变革。

Spark已经成为了原生Hadoop组件特别有用的补充。Norris估计MapR的Hadoop分布式用户有一半正在使用Spark,可能用于生产环境的不同场景。

他表示,Spark引发了一连串兴奋点,其中一部分原因是因为MapReduce编程比较困难,在早期MapReduce编程基本就是Hadoop计算的代名词。

“Spark使开发变得相对容易了。它引入了新的API,支持使用Scala和Python编程语言,这样开发应用就更方便了。同时,它还帮助实现了流分析的结构化,”Norris补充道。

Spark可以监视到事件到达并且执行自动聚合和过滤,从而把原始数据转化为有用信息,Spark使这些工作变得更加容易。Norris表示,一些应用由于整体系统限制不得不在批处理模式下工作,但是这种情况正在改变。