- 第一个问题就是数据捕获。当然,我们知道数据来自不同的源头,有的是来自传感器,有的是来自网络线上交易,有的是来自消费者行为,有的是来自智能手机或者是移动设备。来自不同源头的数据的格式也不一样,我们必须用有效的方式捕获数据。
- 第二点是持有这些数据或者是存储这些数据。我们之前说过数据量非常大,必须得到妥善的存储和保护,数据的可访问性要非常好,所有数据都需要实时进行访问。
- 第三点,也是最重要的一点,就是数据分析。数据只有进行了合理分析才能获得价值,才能实时获取更多的信息,获取有价值的信息,把数据转变成信息。
我们要考虑三个问题。很多演讲嘉宾都谈到了这一点,这一点对大数据这个行业非常重要,所以我们要再次强调,工具、开源以及框架设施非常重要。开源包括软件和硬件的开源,这三大金刚是非常重要的。
开源对云计算非常重要
大家在这两天一直谈论Hadoop这个话题,Hadoop已经成为新的主流范式,而十几年前用的软件开发范式已经不适用了。之前几年的软件开发范式只适合处理结构化的数据,面对非结构化的数据,Hadoop是主流。Hadoop有一个有效的框架,可以处理非结构的数据,尤其是处理分布式数据。Hadoop有一些支持处理和分析的工具,这些是非常重要的,而且这些工具也在不断改进。我相信可以通过工具的改进进一步挖掘大数据的价值。
还有一点,是