阿里数据猿:双十一每秒计算量将超千万条

又到了收货的季节。深秋与初冬交接,刚刚酝酿完一年情绪的女人们,带着满脸的期待,血液的温度开始上扬,微微张开的毛孔,配上快递员呼啸而过留下的微风,这滋味,刚刚好。对于辛勤劳作的人们来说,这也正是一年中享受这个时代宝贵馈赠的时刻--双十一!

对于双十一,关注它火爆的人太多。且听阿里数据猿来谈谈,双十一背后的大数据,是如何快速运转和保证数据质量不出错的。

一笔交易数据检查70余次

相信有不少人认为,自己能产生数据,却不明白数据是如何为自己服务的。其实,你的每一步操作,都需要靠数据来保障。假如你是一个美国用户,刚刚看上一件库存只剩一件的衣服,你赶忙下单并付好款。如果此时,正好国际间网络突然出现了闪断,你“已付款”这个状态的数据并没有从支付宝传输到淘宝的系统中来。那么,在网页上,就有可能依然是“等待付款”状态。

为了让大家避免遇到类似状况,保障购物体验“如丝般顺滑”,阿里特别推出了一项秘密武器,对线上每笔交易进行实时检测。一旦发现数据出现问题,就会立即报警并且提交给相关技术人员处理。每笔交易,都要对其中的相关数据检查超过70次。

秒至毫秒级别实时计算

去年双十一,几百媒体围着一块4500公斤的大屏欢呼。那里面实时展示的数据,正是基于我们的实时计算而来。Galaxy,是阿里自研的通用增量计算平台,能提供秒级别甚至毫秒级别延迟的实时数据计算能力。

Galaxy解决了计算通用性、开发成本、数据质量等诸多难题,并提供可扩展、规模化的集群服务能力。相对于传统的批量计算模型MapReduce,Galaxy提出了通用增量计算框架,在此之上提供算子层和SQL语法,大大降低了用户门槛和开发运维成本。

而实时计算的运用场景,可不只是为了做个大屏让大家热闹一下。它的服务对象已经覆盖内部包括淘宝、天猫、聚划算、无线、搜索、广告、数据产品、菜鸟、安全、阿里云等多个BU或业务线,为广告、内容投放、数据魔方等产品或应用提供实时计算服务。你刚刚看完口罩,马上就能看到广告位上出现的空气净化器,正是实时计算的一项应用。

宕机也不怕丢数据

正如上述案例中,如果出现数据丢失,对于用户来说将会是一次非常糟糕的体验。在阿里内部,保障数据质量,也是所有产品和系统应用的前提条件。实时计算系统,也是如此。

在数据准确性和有状态计算方面,Galaxy提供了高可靠的容错机制,确保任意场景下的“不多不少”的精确语义;在内存快照与容错机制配合下有效解决了有状态计算依赖全局存储带来的吞吐下降的问题。

在这套机制下,哪怕出现了计算的服务器宕机,galaxy还是能从之前的数据流中找回丢失的数据,“妈妈再也不用担心宕机会丢数据了!”

千万条数据计算仅需1秒

大数据需要在应用中发挥出价值,考验的是海量数据的处理能力。需要指出的是,随着时间的推移,大部分数据的价值越来越低。实时计算的出现,正是极速加快了数据闭环的周期,让数据更值钱。

目前, galaxy每秒可计算数据已达500万条,每日处理的记录数超过2500亿,日处理数据量近2PB。预计今年双十一,Galaxy的计算量每秒将超过1000万,日处理消息数将超过1万亿条。

作者为阿里集团著名码农,负责阿里数据治理。曾多次主导阿里双十一数据保障系统,多个数据系统负责人。