误解5:所有数据均与有同等的重要性
在过去的20年里,弗吉尼亚州一直在收集有关学生入学率、财政援助和学位授予等相关数据信息。但是,这并不意味着20年前收集的数据与存储在同一个数据字段的必须是相同的数据。
“目前,我所需要处理的最大问题是,在数据字典中,研究人员认为所有数据信息的重要性都是平等的。” 弗吉尼亚州的州高等教育委员会政策研究和数据仓库主任托德马萨表示。“例如,我们关于学生的ACT和SAT考试成绩数据收集,最初只收集了本州内的学生的信息,然后我们觉得这存在数据缺口,就开始同时收集本州内外学生的数据。”类似的,我们还收集不同种族学生K-12水平测试的数据,并跟踪其高等教育情况。
事实上,对于不同的机构,或在不同的时间点,或对于这些机构内的不同的人而言,任何特定的数据可能具有不同的重要性。“如果一个孤立的存储或企业需要对其收集的数据全权负责,那么您可能有遇到许多不同的情况。”他说。“但,数据的重要性会随时间的推移而改变。”
“因此,分析师需要具备不仅仅只是统计技能,而且还需要具备将数据和行业趋势作为一个整体进行分析的能力,如重新校准SAT和ACT分数。”他说。
您不能将所有这些数据信息都放到一个数据仓库。这同样适用于外部数据源,他补充说。“在过去的50年中,联邦一级的数据集已经发生了巨大的变化,了解数据采集的文化背景是利用数据的必要性前提。”
误解6:预测越具体就越好
认为某些东西越具体就越准确是人的本性。例如:“下午3:12 ”就比“下午的某个时候”更准确。同样,预测“星期天早晨一定会下雨”就比“本周末有百分之五十的下雨机率”更准确的。
事实上,情况正好相反。在许多情况下,更精确的预测不太可能是准确的。
误解7:大数据就等于Hadoop
Hadoop是一款非常流行的非结构化数据的开源数据库,在最近已经得到了很多的关注。但企业其实也有其他的选择。
“有一个整体的NoSQL可供企业选择。”SAP大数据总经理兼高级副总裁Irfan Khan说。“同时,还有MongoDB、Cassandra等其他技术的整体机架。” 其中某些技术可能会比其他的技术更适合一个特定的大数据项目。
特别是,Hadoop的工作原理是将数据划分成块,并同时在多个数据块上工作。此方法适用于许多大数据的问题,但非所有的问题。
“虽然YARN框架和Hadoop 2能够解决其中某些问题,但有时候,您需要处理问题的方式,Hadoop并不是最理想的。” 一家大数据咨询公司LucidWorks的CTO Grant Ingersoll说。“人们需要保持冷静,决定怎样的技术对他们来说是最好的,而不是单纯的靠什么技术是当下最时髦的技术来进行判断。”
误解8 :最终用户不需要直接访问大数据
随着企业从各种各样的来源高速收集大量的大数据信息,似乎对于企业的正式员工而言,处理这些大数据信息都变得相当复杂了。但事实并非如此。
举个例子来说,在重症监护病房中,全部设备所产生的数据,包括心脏速率,呼吸数据,心电图读数。很多时候,医生和护士就只能看到病人当前的读数。
“我无法看到10分钟前的读数是怎样的,或者绘制出一幅趋向图,了解从现在开始到一个小时后将是怎样的走势。”飞利浦医疗保健患者护理和临床信息的首席营销官安东尼。琼斯表示。但能够了解病人的历史数据信息,对于医生做出相关的医疗方案决定是非常有价值的。
现在的问题是,我们需要让所有不同的设备所产生的数据进行相互的交互,即使他们最初不是这样设计的。并且甚至使用的是不同的操作平台,操作系统和编程语言。但是,一旦您这样做了,就能够帮助医生和护士在需要时获得更有价值的数据。
误解9:大数据是个大问题
一些主要的大银行的首席信息官最近纷纷开始讨论关于大数据的话题,并询问关于最终用户的自助服务。
一些高管认为大数据只能够解答某些特定类型的问题。他们的态度可以概括为: “我们的大数据目标是通过一组核心数据科学家解决极少数且高价值的问题。我们不希望数据变得混乱,让一般的人也能够访问和使用这些新的信息,我不认为一般的人需要这些数据。”