物联网和大数据是同一枚硬币的两面,数十亿与互联网连接的“物件”将生产大量数据。然而,这本身不会引发另一场工业革命,不会改变日常的数字化生活,也不会提供拯救地球的预警系统。来自设备外部的数据才是企业让自己与众不同的方面,结合上下文来捕获和分析这种类型的数据为公司带来了新的发展前途。
2.深度学习
深度学习主要用于从大量未标记/未监督的数据当中学习,因而对于从大数据中提取有意义的标识和模式颇具吸引力。比如说,它可以用来识别许多不同类型的数据,比如视频中的形状、颜色和对象,或者甚至是图像中的猫,就像谷歌研制的一个神经网络在2012年所做的那样。因此,企业可能会看到更多的注意力投向半监督式或未监督式训练算法来处理进入的大量数据。
3.内存中分析
不像常规的商业智能(BI)软件对存储在服务器硬盘上的数据运行查询,内存中技术查询的是载入到内存中的信息,这可以通过减少或甚至消除磁盘输入/输出瓶颈来显著提升分析性能。就大数据而言,正是由于TB级系统和大规模并行处理,让内存中分析技术更令人关注。
在现阶段,大数据分析的核心其实是发现数据。要是没有毫秒级延迟,面对数百万次/数十亿次的迭代,运行迭代以查找数据点之间的关联就不会成为现实。在内存中处理的速度比磁盘上处理要快三个数量级。
4.云计算
混合云和公共云服务越来越受欢迎。大数据成功的关键是在弹性基础设施上运行(Hadoop)平台。我们会看到数据存储和分析趋于融合,带来新的更智能的存储系统,它们将经过优化,用于存储、管理和排序庞大的PB级数据集。展望未来,我们可以预计会看到基于云的大数据生态系统将继续迎来发展,不仅仅局限于“早期采用者”。
5.Apache Spark
Apache Spark在点亮大数据。流行的Apache Spark项目提供了Spark Streaming技术,通过主要采用一种在内存中微批量处理的方法,近实时地处理数据流。它已从Hadoop生态系统的一部分,变成许多企业青睐的一种大数据平台。