高效的数据可视化是大数据时代发展进程中关键的一部分。大数据的复杂性和高维度催生了几种不同的降维方法。然而,他们可能并不总是那么适用。高维可视化越有效,识别出潜在的模式、相关性或离群值的概率越高。
大数据可视化还有以下几点问题:
• 视觉噪声:在数据集中,大多数对象之间具有很强的相关性。用户无法把他们分离作为独立的对象来显示。
• 信息丢失:减少可视数据集的方法是可行的,但是这会导致信息的丢失。
• 大型图像感知:数据可视化不仅受限于设备的长宽比和分辨率,也受限于现实世界的感受。
• 高速图像变换:用户虽然能观察数据,却不能对数据强度变化做出反应。
• 高性能要求:在静态可视化几乎没有这个要求,因为可视化速度较低,性能的要求也不高。
可感知的交互的扩展性也是大数据可视化面临的挑战。可视化每个数据点都可能导致过度绘制而降低用户的辨识能力,通过抽样或过滤数据可以删去离群值。查询大规模数据库的数据可能导致高延迟,降低交互速率。
在大数据的应用程序中,大规模数据和高维度数据会使进行数据可视化变得困难。当前大多数大数据可视化工具在扩展性、功能和响应时间上表现非常糟糕。可视化分析过程中,不确定性是有效的考虑不确定性的可视化过程巨大挑战。
可视化和大数据面临许多的挑战,下面是一些可能的解决方法:
1. 满足高速需要:一是 改善硬件 ,可以尝试增加内存和提高并行处理的能力。二是许多机器会用到的, 将数据存储好并使用网格计算方法。
2. 了解数据:请合适的专业领域人士解读数据。
3. 访问数据质量:通过数据治理或信息管理确保干净的数据十分必要。
4. 显示有意义的结果:将数据聚集起来到一个更高层的视图,在这里小型数据组和数据可以被有效地可视化。
5. 处理离群值:将数据中的离群值剔除或为离群值创建一个单独的图表。
大数据可视化的一些进展
在大数据时代,可视化操作究竟是如何进行的呢?首先可视化会为用户提供一个总的概览,再通过缩放和筛选,为人们提供其所需的更深入的细节信息。可视化的过程在帮助人们利用大数据获取较为完整的客户信息时起到了关键性作用。而错综的关系是众多大数据场景中的重要一环,社交网络或许就是最显著的例子,想要通过文本或表格的形式理解其中的大数据信息是非常困难的;相反,可视化却能够将这些网络的趋势和固有模式展现地更为清晰。在形象体现社交网络用户之间的关系时,通常使用的是基于云计算的可视化方法。通过相关性模型来描绘社交网络中用户节点的层次关系,这种方法能够直观地展示用户的社会关系。此外,它还能借助利用云技术的Hadoop软件平台将可视化过程并行化,从而加快社交网络的大数据收集。
大数据可视化可以通过多种方法来实现,比如多角度展示数据、聚焦大量数据中的动态变化,以及筛选信息(包括动态问询筛选,星图展示,和紧密耦合)等等。以下一些可视化方法是按照不同的数据类型(大规模体数据、变化数据和动态数据)来进行分析和分类的:
树状图式 : 基于分层数据的空间填充可视化方法。
圆形填充式:树状图式的直接替代。它使用圆形作为原始形状,并能从更高级的分层结构中引入更多的圆形。
旭日型:在树状图可视化基础上转换到极坐标系统。其中的可变参量由宽和高变成半径和弧长。
平行坐标式:通过可视化分析,将不同帝乡的多重数据因素拓展开来。
蒸汽图式:堆叠区域图的一种,数据围绕一条中轴线展开,并伴随流动及有机形态。
循环网络图式:数据围绕一个圆形排列,并按照它们自身的相关性比率由曲线相互连接。通常用不同的线宽或色彩饱和度测量数据对象的相关性。
传统的数据可视化工具不足以被用来处理大数据。以下列举了几种将交互式大数据可视化的方法。首先,利用一个由可扩展的直观数据摘要群组成的设计空间可以将多种类型的变化数据可视化,这些直观的数据摘要通过数据简化(如聚合或抽样)的方法得出。被应用于特定区间的交互查询方法(比如关联和更新技术)因此通过结合多元数据块和并行查询而被开发出来。而更先进的方法被运用在一个基于浏览器的视觉分析系统——imMens上,来处理数据以及对GPU(图像处理器)进行渲染。