大数据分析项目需要考虑的注意事项

“大数据”已成为时下人们最为津津乐道的流行语。同时流行的术语还包括:商业智能(BI)、分析和数据管理市场。越来越多的企业正在寻找商务智能和分析供应商,以帮助他们解决在大数据环境下的业务问题。

那么,到底什么是大的数据呢?最近,IT出版物eWeek提出了如下的看法,部分是基于Gartner公司的术语进行定义的:“大数据涉及到结构化和非结构化数据的数量、种类和速度,通过网络在处理器和存储设备之间传输,并为企业的相关业务提供相关数据业务咨询。”

这一描述切中了数据管理和分析的部分,但却忽略了围绕着大数据的业务挑战这一基本面:复杂性。例如,大数据的安装往往涉及信息——包括社交媒体网络、电子邮件、传感器、网络活动日志和其他数据源,这些都不能简单的融入到传统的数据仓库系统。

而在许多情况下,需要把所有这些不同的数据放在一起,以在更广泛的层面上使得它们具有意义。可能会给业务规则以及大数据分析系统的其他组成部分带来很大的影响。当涉及到数据存储和查询管理,大数据的复杂性使得其与传统数据更加显得不同,这便是分析数据库和数据分析软件厂商都不得不以加强了他们的产品,以帮助企业应对大数据的主要原因。

对大数据的理解是评估你的技术需求和制定大数据分析计划的第一步。其次是了解市场和当前的趋势,以及您的企业希望从越来越大的和多样化的数据集中获得的商业价值和竞争优势。

大数据分析项目的大议程

许多企业一直都有庞大的数据集。但现在,越来越多的企业存储的数据已经是TB级的,而不再是PB级的了。此外,他们正在寻找每日多次分析关键数据,甚至是实时的分析,改变传统的每周或每月进行BI历史数据审查的过程。他们要处理更多和更复杂的查询,这涉及各种不同的数据集。这可能包括企业资源规划和客户关系管理系统,再加上社会媒体和地理空间数据,内部文件和其他形式的数据交易信息。越来越多的企业也希望被赋予企业用户的BI自助服务功能,使他们更容易了解分析结果。

所有这一切都可以发挥到一个大数据分析策略中,技术供应商解决这些需要以不同的方式。许多数据库和数据仓库供应商关注的重点是能够及时处理大量复杂数据。有些使用柱状数据存储,努力实现更快的查询性能,或提供内置查询优化器,或加入支持如Hadoop和MapReduce等开源技术支持等。

内存中的分析工具可以帮助加速分析过程,通过减少从磁盘驱动器传输数据的需要。而数据虚拟化软件和其他实时数据集成技术可以用来组装来自不同数据源的信息。现成的分析应用程序适合经常要处理大数据的垂直市场,比如,电信、金融服务和在线游戏产业。数据可视化工具,可以简化大数据分析的查询结果呈现的过程,更好的服务于企业管理人员和业务经理。

在创建实施计划和完成大数据基础设施的选择之前,适合上述有关数据和分析需求类别的企业首先应该考虑以下的事项和问题:

-所需数据的及时性,因为不是所有的数据库都支持实时数据的可用性。

-相互关联的数据和复杂的业务规则,将需要连接各种数据源。从而对企业绩效、销售机遇、客户行为、风险因素和其他业务指标有一个广泛的认识。

-需要进行分析的历史数据量。如果一个数据源只包含两年的数据信息,但实际需要的是五年的数据,这将如何处理?

-在你的行业,哪些技术供应商具备了大数据分析经验,他们是否具有相关的跟踪记录?

-在企业内,谁负责各种数据,以及这些负责人将如何参与主动的大数据分析?

这些因素并不构成深入的需求计划,但他们可以帮助企业在部署一个很大的数据分析系统和识别技术方面带来一定的支持。