避免投资浪费 认清大数据的10大误区

大数据在当前的科技新闻中占据了主导地位,它被吹捧为一切问题的可能的解决方案,从入侵检测与预防欺诈,到治疗癌症和设置最优的产品价格。

但我们定义大体量、多格式、高速度的大数据,并不是能够搞定每一个问题的灵丹妙药。事实上,如果公司迷信周围的一些大数据的神话,可能在错误的方向越走越远,浪费大量的时间和金钱,影响公司的市场竞争地位,或者损害公司的声誉。

以下是企业应当知道的围绕大数据的十个最大的误区,了解他们将有助于有效地避免大数据的消极影响,并真正获得大数据带来的商业价值。

避免投资浪费,认清大数据的10大误区

误区1:只有数据科学家可以处理大数据

事实上,只有数据科学家是不够的。

“数据科学家本身不能获取大数据的信息,如果你不知道你寻求的首要问题,”Penn Medicine数据分析高级总监Pat Farrell说。“你需要熟悉的行业、领域知识的人,了解存在什么样的问题,有什么见解对这个特定的行业才是有价值的。”

例如,Penn Medicine包括卫生系统和一所医学学校。长期以来,卫生系统一直在数据仓库收集临床数据。同时,在医学院,新技术允许人类基因组的测序,这需要一个庞大的数据量。

“我们知道有值在哪里,并且我们终于有计算能力来访问它,”Farrell说,结合数据分析和医学专业知识,开辟了预测医疗保健的一个全新的领域。

误区2 :数据越大,价值越大

Farrell表示,收集、贮存数据并对其进行编目需要时间和资源,不加区别地收集大量的数据可能使得更有价值的项目与这些资源无源。

Farrell建议,公司在开始收集数据之前,要对它们的具体指标或关键绩效指标有清晰的认识。

误区3 :大数据为大公司服务

大公司可能有更多的数据来源,但即使是小公司,也可以利用从社交媒体平台,政府机构,以及数据供应商获得的数据。

“不管组织规模的大小,基于数据的决策总比单纯依靠直觉进行决策更加靠谱。” 戴尔软件信息管理解决方案部门的产品管理高级总监 Darin Bartik说。

小型公司往往比同行的大企业更少地使用数据驱动的决策,但如果他们这样做,他们可以更快地修正策略。

误区4:现在收集,以后整理

存储越来越便宜,但它不是免费的。总部位于旧金山、基于云计算的商业智能厂商Birst的首席执行官Brad Peters表示,对于许多公司来说,数据增长的速度超过了存储成本下降的速度。

一些公司认为,如果他们只是收集数据,他们以后会找出这些数据的利用之道,但付出大量成本却毫无价值。事实上,一些数据集适用收益递减规律。例如,你进行民意测试来预测选举结果。你需要一定数量的投票人以获得具有代表性的样本。但这个数量达到某个点之后,增加更多的人不会显著影响误差幅度。

而且这不仅涉及存储成本,Recommind公司信息治理和大数据管理全球主管Dean Gonsowski说,该公司总部位于旧金山,专注于非结构化数据分析。

例如,数据越多,进行排序的时间就越长。“当数十亿条记录入库,搜索需要花费数小时或数周。”他说。

误区5 :所有数据的都平等

弗吉尼亚州在过去20年一直在收集有关学生注册人数,财政援助和奖励程度的数据。但是,这并不意味着,20年前收集并存储在相同的数据字段中的数据一定是相同的数据。

“我处理的最大问题是,仅仅因为它是在数据字典中,研究人员认为这是公平的比赛,”弗吉尼亚州议会高等教育政策研究和数据仓库主管Tod Massa说。“例如,ACT和SAT的学生的考试成绩数据,最初只对本州的学生收集,然后有一个缺口,然后收集本州和其他州的学生数据。”同样,不同种族在K - 12级别和在高等教育的数据也有所不同。

事实上,任何特定的数据,由不同的机构,或不同的人,或在不同的时间点报告的,都可能有所不同。

因此,分析师需要具备的不只是统计技能,而且还要熟悉数据的当地知识,和行业的整体发展趋势,如SAT和ACT成绩被重新标定。

“你不能编程所有这些东西放到一个数据仓库。”Tod Massa说。

这同样适用于外部的数据源,也就是说,很好地使用任何数据,确实需要了解这些数据收集的文化和背景。

误区6 :更具体的预测更好