大数据“老兵”畅谈大数据基础设施建设

问:所以,你只能找那些喜欢数据挖掘避过愿意使用开源工具的人?

Leach:我曾经看到一群物理学家在大数据领域工作。Hadron Collider里的工作人员每天需要沉浸在在机器产生的PBS数量级的数据中。经济学家、物理学家以及喜欢衍生工具的人,都是典型的数据分析师:他们喜欢数据。我将去经济学家领域找到合适的人才,因为我之前不太重视他们。

问:一些公司对大数据最大的误解是什么?

Leach:我认为很多公司都不会意识到他们如何在一开始就小心翼翼的对待数据。你在数据管理、注解、组织方面花的时间少了,就会影响你如何使用数据。我们从一份统计里看到,当我们的项目完成五个月后,就没有人再去关注数据里。你两年来的数据怎么处理?删掉他?还是重新组织?鉴于目前数据存储成本下降,我们可以存储这些数据。

问:这或许就是你谈到的,当人们开始面对大数据时,往往会变得很短视?

Leach:不仅是IT部门的短视,连数据搜集者也是这样。IT部门负责数据搜集,从IT的角度来看,IT部门是不会考虑长远的,但搜集者也是仅仅关注当下的数据,或关注他们搜集到的数据。

问:为了实现大数据的目标,你需要收集足够多的数据,你手机的越多,做出的预测也越精准,可以这样理解吗?

Leach:是的,如果你真的能把握的话,大数据仅仅“大”而已。