专家众议 大数据时代微博瓶颈如何破

新浪微博平台上的风云榜、微数据、微报告,以及餐客等第三方微博数据挖掘,就是基于微博内容对海量数据进行挖掘和价值提炼的典型应用。在基于英特尔架构的基础上,新浪还特别重视软件层面的大数据解决方案。

根据杨卫华的介绍,目前新浪微博主要采用2种方法来处理海量数据,分别是传统的关系型数据库和NoSQL。在关系数据库中,可以通过sharding将数据分散至多台服务器上,并针对不同时间段的热门微博内容或者关键词,通过时间分片进行sharding。比如针对微博热词或者微博账号影响力按照一定规则进行排序,提供风云榜排名,也可支持微博用户鉴定自我影响力和了解当前热门话题。NoSQL属于非关系型数据库,同时也是Hadoop框架中的HBase子模块,能够搭建起应对微博海量数据的解决方案。对于音视频、投票排名等非结构化数据,可以通过对微博数据按行业类别进行挖掘、分析和处理,并将处理结果形成微报告,指导运营工作。而开放API的新浪微博,也可以为第三方开发内容更为丰富的微博数据挖掘应用提供外部接口。不远的未来,新浪微博将升级系统,直接采用能够与现有架构实现完美支持、并将性能发挥至极致的英特尔Hadoop发行版,实现大数据完整解决方案。

英特尔Hadoop发行版,专门针对英特尔架构平台进行了一系列优化,能获得比非英特尔发行版Hadoop的性能实现成倍增长,使其处理能力达到或者接近于实时的效果,同时可确保更好的稳定性。英特尔Hadoop Manager 2.0可帮助管理员简化Hadoop的部署和管理工作,提高效率。这些,让已经部署了英特尔硬件平台的新浪微博看到了希望,精“芯”构筑的软硬一体数据挖掘平台,为开放API给第三方提供更多微博数据挖掘提供更好支持。

总结

大数据,既是一种机遇也是一种挑战。作为国内最大的微博平台,新浪微博在应对不断增长的微博用户和数据内容带来的挑战的同时,也需要特别抓住微博带来的巨大商业价值。基于英特尔平台的底层架构和英特尔Hadoop发行版分布式处理系统,可以帮助提供可靠、高效而又易于扩展的微博平台。在实现新浪微博通过微博数据进行挖掘,满足微博用户个性化应用体验的同时,也可以满足第三方挖掘微博数据价值为企业提供决策参考的需求。