优步在Hadoop上做增量处理的案例

思维模式的转变

最后的挑战严格来说并不是技术上的。在选择技术以应对不同的场景时,组织生态扮演着核心角色。在很多组织中,团队挑选那些在行业流行的模板化解决方案,并逐步习惯以特定的方式来使用这些系统。例如,典型的数据仓库的延迟需求是以小时计的。因此,即使底层技术可以在更低的延迟下解决不少问题,但是还是需要花费大量的功夫去实现数据仓库系统的最小化停机时间或者避免在维护过程中服务中断。如果你是在建立满足更低延迟的服务水平协议的系统,这些运维特点是很重要的。另一方面,能解决低延迟问题的团队也非常擅长运维那些有严格服务水平协议要求的系统,这就导致组织机构最后总是会为批处理和流式处理分别创建数据贮藏库。这就阻碍了在诸如Hadoop的系统上实现增量处理,从而无法获得上述的好处。

这绝不是要尝试来泛化组织生态的挑战。作为一个经历了推动领英的在线服务,以及推动了优步数据生态系统的人,这些仅仅是我自己的观察。

可带走的经验

我想要留给你以下可带走的经验教训:

1.对实际延迟需求有清晰的定义可以帮你节省很多钱。

2.