2017大数据十大趋势丨海量数据汹涌而来,Hadoop不再一家独大

数据从哪里来:Last.fm有两种收听信息:用户播放自己的音乐,如pc或者其他设备mp3,这种信息通过Last.fm的客户端或者第三方应用发送到Last.fm,这一类叫scrobble收藏数据;用户收听Last.fm网络电台的节目,以及听节目时候的喜爱,跳过,禁止等操作信息,这一类叫radio listen电台收听数据。

数据存储:收听数据被发送到Last.fm,经历验证和转换,形成一系列有空格分隔的文本文件,包含用户id-userid,音乐id-trackid,这首音乐被收藏的次数scrobble,这首音乐在电台中收听的次数radio,被跳过的次数skip。真实数据达到GB级别,有更多属性字段。

数据处理

Unique Listeners作业:统计收听某一首歌的不同用户数,也就说说,有多少个用户听过某个歌,如果用户重复收听,只算一次。

Sum作业:每首歌的收听总数,收藏总数,电台收听总数,被跳过的总数。

合作作业:每首歌被多少用户收听总数,收听总数,收藏总数,电台收听总数,被跳过的总数等。

最后,这些数据会被作为周排行榜等在Last.fm主站上显示出来。

Hadoop大数据技术案例

让Hadoop和其他大数据技术如此引人注目的部分原因是,他们让企业找到问题的答案,而在此之前他们甚至不知道问题是什么。包括谷歌,Facebook、LinkedIn还在内的诸多巨头,都在帮助Hadoop改善运营效率。具体包括包括:

情感分析: Hadoop与先进的文本分析工具结合,分析社会化媒体和社交网络发布的非结构化的文本,包括Tweets和Facebook,以确定用户对特定公司,品牌或产品的情绪。分析既可以专注于宏观层面的情绪,也可以细分到个人用户的情绪。

风险建模: 财务公司、银行等公司使用Hadoop和下一代数据仓库分析大量交易数据,以确定金融资产的风险,模拟市场行为为潜在的“假设”方案做准备,并根据风险为潜在客户打分。

欺诈检测: 金融公司、零售商等使用大数据技术将客户行为与历史交易数据结合来检测欺诈行为。例如,信用卡公司使用大数据技术识别可能的被盗卡的交易行为。

客户流失分析: 企业使用Hadoop和大数据技术分析客户行为数据并确定分析模型,该模型指出哪些客户最有可能流向存在竞争关系的供应商或服务商。企业就能采取最有效的措施挽留欲流失客户。

用户体验分析: 面向消费者的企业使用Hadoop和其他大数据技术将之前单一 客户互动渠道(如呼叫中心,网上聊天,微博等)数据整合在一起, 以获得对客户体验的完整视图。这使企业能够了解客户交互渠道之间的相互影响,从而优化整个客户生命周期的用户体验。

10.元数据目录的建立帮助筛选出具有分析价值的数据

很长一段时间以来,公司抛弃了数据,因为他们认为海量的数据处理起来确实无从下手。

很长一段时间以来,公司抛弃了数据,因为他们认为海量的数据处理起来确实无从下手。用Hadoop当然也可以处理大量的数据,但是这些数据仍然没有一个清晰的分类、易追溯的架构。

元数据目录可以帮助用户发现和理解哪些数据需要使用自助服务工具进行分析。客户的这种需求正被Alation和Waterline这样的公司填补,它们使用机器学习来自动筛选Hadoop需要分析的数据:

如,使用标签对文件进行编目,标明数据资产之间的关联,必要时还会提供搜索UI给出的查询建议。这大大缩短了数据使用者和管理者取得信任、查找以及准确查询数据的时间。在2017年,作为自助服务的自然延伸,我们将看到更多企业意识到自助分析的重要性,以及对其迫切的需求。