图2:用树图跟踪查看社交网络流媒体服务的选择
可视化并非仅仅是静态形式,而应当是互动的。交互式可视化可以通过缩放等方法进行细节概述。它有如下的步骤:
1、选择:交互式根据用户的兴趣选择数据实体或完整的数据集,以及它的子集。
2、链接:在多个视图找到有用的信息,如图3所示。
3、过滤:帮助用户调节显示的信息量,减少信息数量并且专注于用户感兴趣的信息。
重排或再映射:空间布局是最重要的视觉映射,重排信息的空间布局对产生不同的见解非常有效。
图3:直方图(上)和地理图(底部)的数据集之间的互动和连接
新的数据库技术和前沿的网络可视化方法可能是减少成本的重要因素,也有助于完善科研的进程。随着网络时代的到来,数据时时都在更新,大大减小了可视化的时效性。这些“低端”可视化通常用于商业分析和政府数据的开放,但它们对科研没有太大的帮助。许多科学家使用的可视化工具都不允许连接这些网络工具。
三、大数据可视化面临的挑战
拓展性和动态分析是可视化的两个最主要的挑战。根据数据量的大小,表2显示了静态数据和动态数据的研究现状。对大型动态数据,原本A问题的答案和B问题的答案也许在同时应对AB两个问题时就不适用了。
表2:可视化分析的研究现状和挑战
基于可视化的方法迎接了四个“V”的挑战,并将它们转化成以下的机遇。
体量(Volume):使用数据量很大的数据集开发,并从大数据中获得意义。
多源(Variety):开发过程中需要尽可能多的数据源。
高速(Velocity):企业不用再分批处理数据,而是可以实时处理全部数据。
质量(Value):不仅为用户创建有吸引力的信息图和热点图,还能通过大数据获取意见,创造商业价值。
大数据可视化的多样性和异构性(结构化、半结构化和非结构化)是一个大问题。高速是大数据分析的要素。在大数据中,设计一个新的可视化工具并具有高效的索引并非易事。云计算和先进的图形用户界面更有助于发展大数据的扩展性。
可视化系统必须与非结构化的数据形式(如图表、表格、文本、树状图还有其他的元数据等)相抗衡,而大数据通常是以非结构化形式出现的。由于宽带限制和能源需求,可视化应该更贴近数据,并有效地提取有意义的信息。可视化软件应以原位的方式运行。由于大数据的容量问题,大规模并行化成为可视化过程的一个挑战。而并行可视化算法的难点则是如何将一个问题分解为多个可同时运行的独立的任务。
高效的数据可视化是大数据时代发展进程中关键的一部分。大数据的复杂性和高维度催生了几种不同的降维方法。然而,他们可能并不总是那么适用。高维可视化越有效,识别出潜在的模式、相关性或离群值的概率越高。
大数据可视化还有以下几点问题:
视觉噪声:在数据集中,大多数对象之间具有很强的相关性。用户无法把他们分离作为独立的对象来显示。
信息丢失:减少可视数据集的方法是可行的,但是这会导致信息的丢失。
大型图像感知:数据可视化不仅受限于设备的长宽比和分辨率,也受限于现实世界的感受。
高速图像变换:用户虽然能观察数据,却不能对数据强度变化做出反应。
高性能要求:在静态可视化几乎没有这个要求,因为可视化速度较低,性能的要求也不高。