Facebook日处理数据超500TB

随着互联网技术的发展,当今网络中每天都在产生海量的信息,这其中包括半结构化和非结构化的数据。组织可以通过对海量信息的分析了解到他们客户真正需要的以及为什么需要的原因。如今Apache Hadoop已成为大数据行业发展背后的驱动力。

Facebook的工程师相信他们运行着最大的基于Hadoop的数据收集平台。Facebook基础设施工程副总裁Jay Parikh表示Facebook大多数的网站数据存储在单一的集群之中,容量可达100PB,Facebook的集群相比于其他公司的集群可谓是独树一帜。

Facebook产品团队部门通过(每30分钟扫描105TB的数据的过程)来衡量产品,同时Facebook管理着数以百万计的照片和数十亿like按钮流量日志,以便根据用户的喜好为用户推荐喜欢的内容。

以下为Facebook每天的数据流量