从小数据分析到大数据平台，大数据开源技术是如何演进的？_大数据_计算头条_中国计算网——工业互联网一站式服务平台—

数据提供系统是怎么工作的呢？它通常把数据提供到其它地方进行进一步的处理，首先可以把数据提供到存储的机制当中，存储机制只是数据库，会存储数据，也可以从这里调用数据。然而现在更普遍的情况是一种专门的储存数据库，可以看到很多的专门的存储数据的系统。

现在最普遍的存储方式是分布式数据存储系统，也就是说把这些数据无限制地放到HDFS系统当中，随时进行提取数据。文件系统和数据提交系统有一些重叠的地方，如果你在Kafka里长时间存储数据的话，你会考虑它是一种存储的方式。但是有些时候这种数据推送，数据提供需要同样的技术。

4.Processing

数据处理的技术是做什么的呢？也就是说它把数据进行变化，让它更简洁，或者把数据进行变形，以便于更容易的处理。在查询和数据处理方面也有一些重合。我们应该这么理解，处理过程是把数据进行变形，输出的数据和输入的数据量是一样大的，查询系统的输出数据比输入数据比较小一些，这在很多的系统里都是这样的。在大数据系统方面你可以看到这些系统不断来增强处理的性能。另外一些系统重点放到查询方面技术的提高。

5.Stream Processing

有两种子类型，关于处理的，第一个流处理，流处理也就是把数据放到一个流的程序当中进行连续处理。首先数据提供到Kafka里，需要先进行流处理，之后才进入存储器进行存储。还有一种就是直接放到查询系统当中，这是两种不同流处理的流程。

有很多不同的流处理的处理器，有很多的开源的流处理的程序，下面这三种是非常流行的处理方式。

10/18 首页上一页 8 9 10 11 12 13 下一页尾页