我们需要收集数据、处理数据、存储数据,并最终将数据用于分析,机器学习和数据表盘。
数据撷取:NFS
通过网络文件系统(NFS)协议可远程访问网络共享磁盘。启用NFS服务器后,可与客户共享目录和文件,让用户和程序像访问存储在本地的文件一样访问远程系统上的文件。
与只允许集群数据导入或批量导入的其它版本的Hadoop不同,MapR允许通过NFS直接挂载群集本身,让您的应用程序直接读取、写入数据。通过POSIX语义,该MapR文件系统允许直接修改文件和多个并发读取写入操作。挂装NFS的集群可实现对数据源的简单数据撷取,比如说从其他应用标准Linux命令、实用程序、应用程序和脚本的设备上撷取文件、图片等。
通过使用NFS可从MapR集群移出移入数据至更昂贵的存储空间。例如,您可以将处理过的热数据转移到关系数据库或数据仓库,您也可以将冷数据转移到成本更低的Hadoop存储中。
流数据撷取:KAFKA API
由于越来越多的医疗方案需要实时分析和动态数据,使用事件流撷取数据到系统中则将成为关键。 MapR流是一种新型的分布式通信系统,通过Apache Kafka 0.9 API可使得生产者和消费者之间实现实时交流事件动态。主题是信息的逻辑化集合,可依据其将事件分门别类。
主题分区域放置。主题将并行数据负载传遍多个服务器,这保证了更高的吞吐量和可扩展性。
读取后消息并不会从主题中删除,而且主题可以有多个不同的消费者,这使得抱有不同目的不同消费者处理可以处理同一消息。