随着物联网和大数据的应用与发展,企业中的数据量每天都在增加,因此需要了解如何满足这些新的IT计划的存储需求。
从冰箱到汽车,物联网涉及几乎所有配置传感器的所有设备,并通过互联网连接将数据传输到中央存储库进行存储。一旦存在,它就成为大数据的一部分,这是对所有信息的分析。
然而,大数据的应用远远超出了物联网(IoT)。大数据项目可以分析来自传统或现代数据库甚至非结构化数据的数据。大数据还可以将传感器收集的看似无关的信息与传统数据库中的信息相关联,以提高组织效率。例如,交通运输公司可以在其车辆中使用传感器来引导驾驶员选择提高运输效率和降低燃料成本的路线。
采用大数据或物联网项目的好处可以提高生产力,更好的健康或更加愉快的生活。随着用户对这一概念越来越适应,这些技术允许安装越来越少的设备,数据组织的收集量呈指数增长。人们面临的挑战是如何存储这种数据,因为其在类型和数量上与传统存储数据明显不同。
存储需要一个大数据和物联网项目
从存储的角度来看,物联网和大数据是相似的,但他们有不同的需求。物联网项目的存储响应取决于用例。对于传感器,物联网存储系统需要同时处理来自数百万个传感器的快速输入。因为这些传感器产生的数据通常很小,所以目标存储系统需要存储可能达到数万亿个小文件,而不会影响性能。
但物联网项目的数据还可以包括来自摄像机或无人机的监视图像。此数据类型通常是连续流,因此其存储取决于高带宽和存储,这需要比传感器用例更少但却大得多的大容量文件的能力。而这种挑战更加令人生畏的是,组织为这两种物联网用例都需要提供更大的存储空间。
从大数据的角度来看,存储系统需要访问物联网项目创建的所有或至少大部分数据。组织还可以使用大数据项目来分析现有数据库和其他非结构化数据,以及关联不同的数据集。
到目前为止,大数据最常见的基础是Hadoop文件系统。Hadoop文件系统(HDFS)创建处理服务器集群,并将分析作业分配给集群中任务量最少的节点。其意图是节点需要分析的数据在该节点上都是本地数据。这种情况消除了对昂贵的网络基础设施的需要,并能够使用低成本的服务器级存储设备,而不是昂贵的共享企业级存储设备。
物联网和大数据的数据占用和存储I/O的要求与传统数据中心应用并不相同。首先,物联网数据通常是连续馈送。数据大小可以从小到大,而所需要存储的文件数量可以达到数万亿。这使其更容易快速创建大量的数据,其结果是存在对容量增长的持续需求。
这种增长必须快速扩张,并且不会造成破坏。物联网项目的存储系统还需要成本有效地扩展,以便组织能够长时间存储PB级数据。这需要更低的管理成本和负担。大多数IT人员根本无法管理来自六个不同供应商的十几个存储系统。IT专业人员需要将其存储硬件要求推广到一至三个涵盖一级和二级应用程序的存储系统,以及物联网和大数据创建的大量非结构化数据。
寻找到物联网项目挑战的答案
物联网和大数据的应用为IT专业人员带来了一系列挑战。物联网有两种不同的文件存储需求,大多数组织最终都需要这两者。第一个需要随机摄取数万亿的小文件。第二个需要高得多的带宽流的文件,只是数量少得多,但却大得多。单个存储系统极少提供这两种功能。通常,它们被调整为处理数万亿的小文件或调整为大型的流文件。
从大数据的角度来看,存储系统需要访问物联网项目创建的所有或至少大部分数据。
大数据项目带来了另一组挑战。首先,来自物联网项目的大部分(如果不是全部)数据需要转移到Hadoop集群进行分析。第二,Hadoop集群必须能够访问业务中的传统数据,例如数据库和用户数据。此外,HDFS本身也有挑战。例如,单个节点负责分析作业分配。它还存储群集的所有元数据。如果该节点关闭,整个集群可能会失败。
组织还面临Hadoop的本地存储设计的挑战。通过在节点之间复制数据副本来进行数据保护。大多数组织将选择三方复制作为默认值。这意味着从容量角度看,这些挑战将会乘以三倍,再加上已经驻留在物联网存储系统上的数据,这对容量提出了更高的要求。
Hadoop设计中的另一个挑战是,集群中处理作业的最可用节点实际上可能不会在其上存储数据。这意味着作业将具有处理其能力较差的节点,或者该作业需要将数据传送到最有能力的节点。