使用Storm实现实时大数据分析!

  • Storm集群管理简易。
  • Storm的容错机能:一旦topology递交,Storm会一直运行它直到topology被废除或者被关闭。而在执行中出现错误时,也会由Storm重新分配任务。
  • 尽管通常使用Java,Storm中的topology可以用任何语言设计。
  • 当然为了更好的理解文章,你首先需要安装和设置Storm。需要通过以下几个简单的步骤:

    • 从Storm官方下载Storm安装文件
    • 将bin/directory解压到你的PATH上,并保证bin/storm脚本是可执行的。

    Storm组件

    Storm集群主要由一个主节点和一群工作节点(worker node)组成,通过 Zookeeper进行协调。

    主节点:

    主节点通常运行一个后台程序 —— Nimbus,用于响应分布在集群中的节点,分配任务和监测故障。这个很类似于Hadoop中的Job Tracker。

    工作节点:

    工作节点同样会运行一个后台程序 —— Supervisor,用于收听工作指派并基于要求运行工作进程。每个工作节点都是topology中一个子集的实现。而Nimbus和Supervisor之间的协调则通过Zookeeper系统或者集群。