大数据可视化的最新动态

数据可视化是将数据以不同形式展现在不同系统中,其中包括属性和变量的单位信息。基于可视化发现数据的方法允许用户使用不同的数据源,来创建自定义分析。先进的分析集成了许多方法,为了支持交互式动画在台式电脑、笔记本电脑或平板电脑、智能手机等移动设备上创建图形桌面。根据调查,表1显示了数据可视化的好处。

160

对于可视化有以下几点建议

大数据 是大容量、高速度并且数据之间差异很大的数据集,因此需要新的处理方法来优化决策的流程。大数据的挑战在于数据采集、存储、分析、共享、搜索和可视化[5]

1、“所有数据都必须可视化”:不要过分依赖可视化,一些数据不需要可视化方法来表达它的消息。

2、“只有好的数据才应该做可视化”:简便的可视化可以便于找到错误就像数据有助于发现有趣的趋势一样。

3、“可视化总是能做出正确的决定”:可视化并不能代替批判性思维。

4、“可视化将意味着准确性”:数据可视化并不着重于显示一个准确的图像,而是它可以表达出不同的效果。

常规数据可视化方法

许多传统的数据可视化方法经常被使用,比如表格、直方图、散点图、折线图、柱状图、饼图、面积图、流程图、泡沫图表等以及图表的多个数据系列或组合像时间线、维恩图、数据流图、实体关系图等。此外,一些数据可视化方法经常被使用,却不像前面那些使用的广泛,它们是平行坐标式、树状图、锥形树图和语义网络等。

平行坐标被用于绘制多维度个体数据。平行坐标在显示多维数据时是非常有用的。图1就是平行坐标;树状图则是一种有效的可视化层次结构方法。每个子矩形的面积代表一个测量,而它的颜色常被用来代表另一个测量的数据。图2显示了一个选择流媒体音乐和视频的树状图,是在一个社交网络社区获得的数据;锥形树图是另一种显示分层数据的方法,如三维空间中的组织体,它的树枝是锥生长的形式;语义网络是一个表示不同概念之间的逻辑关系的图形。它生成有向图,组合节点或顶点,边或弧,并在每个边上做标记。

可视化并非仅仅是静态形式,而应当是互动的。交互式可视化可以通过缩放等方法进行细节概述。它有如下的步骤:

1、选择:交互式根据用户的兴趣选择数据实体或完整的数据集,以及它的子集。

2、链接:在多个视图找到有用的信息,如图3所示。

3、过滤:帮助用户调节显示的信息量,减少信息数量并且专注于用户感兴趣的信息。

重排或再映射:空间布局是最重要的视觉映射,重排信息的空间布局对产生不同的见解非常有效。

新的数据库技术和前沿的网络可视化方法可能是减少成本的重要因素,也有助于完善科研的进程。随着网络时代的到来,数据时时都在更新,大大减小了可视化的时效性。这些“低端”可视化通常用于商业分析和政府数据的开放,但它们对科研没有太大的帮助。许多科学家使用的可视化工具都不允许连接这些网络工具。

大数据可视化面临的挑战

拓展性和动态分析是可视化的两个最主要的挑战。根据数据量的大小,表2显示了静态数据和动态数据的研究现状。对大型动态数据,原本A问题的答案和B问题的答案也许在同时应对AB两个问题时就不适用了。

基于可视化的方法迎接了四个“V”的挑战,并将它们转化成以下的机遇。

• 体量(Volume):使用数据量很大的数据集开发,并从大数据中获得意义。

• 多源(Variety):开发过程中需要尽可能多的数据源。

• 高速(Velocity):企业不用再分批处理数据,而是可以实时处理全部数据。

• 质量(Value):不仅为用户创建有吸引力的信息图和热点图,还能通过大数据获取意见,创造商业价值。

大数据可视化的多样性和异构性(结构化、半结构化和非结构化)是一个大问题。高速是大数据分析的要素。在大数据中,设计一个新的可视化工具并具有高效的索引并非易事。云计算和先进的图形用户界面更有助于发展大数据的扩展性。

可视化系统必须与非结构化的数据形式(如图表、表格、文本、树状图还有其他的元数据等)相抗衡,而大数据通常是以非结构化形式出现的。由于宽带限制和能源需求,可视化应该更贴近数据,并有效地提取有意义的信息。可视化软件应以原位的方式运行。由于大数据的容量问题,大规模并行化成为可视化过程的一个挑战。而并行可视化算法的难点则是如何将一个问题分解为多个可同时运行的独立的任务。