可视化和大数据面临哪些挑战以及如何解决

很多大数据可视化工具都是在Hadoop的平台上运行的。该平台里的常用模块有:Hadoop Common, HDFS(Hadoop Distributed File System),Hadoop YARN和Hadoop MapReduce。这些模块能够高效地分析大数据信息,但是却缺乏足够的可视化过程。下面将介绍一些具备可视化功能并实现交互式数据可视化的软件

Pentaho:一款支持商业智能(BI)功能的软件,如分析、控制面板、企业级报表以及数据挖掘;

Flare:实现在Adobe视频播放器中运行的数据可视化;

JasperReports:拥有能够从大数据库中生成报告的全新软件层;

Dygraphs:快速弹性的开放源Java描述语言图表集合,能发现并处理不透明数据。

Datameer Analytics Solution and Cloudera:同时使用Datameer和Cloudera两个软件能使我们在Hadoop平台时更快捷、更容易。

Platfora:将Hadoop中的原始大数据转换成交互式数据处理引擎。Platfora还有把内存数据引擎模块化的功能。

ManyEyes:IBM公司开发的可视化工具。它可供用户上传数据并实现交互式可视化的公共网站。

Tableau:一款商业智能(BI)软件,支持交互式和直观数据分析,内置内存数据引擎来加速可视化处理。

Tableau系列软件在处理大规模数据集时主要是依靠以下三种产品:Tableau Desktop,Tableau Sever和Tableau Pubilc。此外,Tableau还能内嵌入Hadoop的基础设备之中,利用Hive(基于Hadoop的一个数据仓库工具)将查询结构化并为内存分析缓存信息。通过缓存信息,Hadoop集群延迟的可能性会大大减小。因此,Tableau软件为用户与大数据应用提供了一个交互互动机制。

大数据分析工具可以轻而易举地处理ZB(十万亿亿字节)和PB(千万亿字节)数据,但它们往往不能将这些数据可视化。如今,主要大数据处理工具有Hadoop,High Performance Computing and Communications,Storm,ApacheDrill,RapidMiner和 Pentaho BI。数据可视化工具有NodeBox,R,Weka,Gephi,Google Chart API,Flot,D3,and http://Visual.ly等等。一种在RHadoop基础上形成的大数据可视化算法分析整合模型已经被提出,用来处理ZB和PB数据并以可视化的方式为我们提供较高价值的分析结果。它还与ZB和PB数据并行算法的设计相切合。

交互式可视化集群分析是我们用来探寻集群模式最直接的方法。其中最具有挑战性的一点是可视化多维数据,以便用户交互式分析数据和认识集群结构。如今我们已经开发出优化的星型坐标可视化模型,来有效分析大数据交互集群,它与其他多维可视化方法(如平行坐标和散点图矩阵)相比,极可能是最具备扩展性的大数据可视化技术:

平行坐标和散点图矩阵通常被用来分析十个维度以内的数据,而星型坐标则可以处理数十个维度。

在基于密度代表的帮助下,星型坐标式可视化自身得以扩展。

基于星型坐标的集群可视化并非是用于计算数据记录中的两两距离;而是利用潜在映射模型的性能部分地保持这个位置关系。这一点在处理大数据上十分有用。

将大数据源直接可视化既不可能也不有效,因此通过分析数据减少大数据的量和降低其复杂程度就显得十分重要。所以将可视化和分析相互整合才能使效能最大化。IBM公司开发的RAVE软件已经能够将可视化运用到商业分析领域去分析并解决问题。RAVE和可拓展的可视化性能让我们能够利用有效的可视化更好地理解大数据。同时,其他的一些IBM产品,例如IBM® InfoSphere® BigInsights?和IBM SPSS® Analytic Catalyst,也同RAVE一起,利用交互可视化丰富用户对大数据的洞察。例如InfoSphere BigInsights能够帮助分析并发现隐藏在大数据中的商业信息,SPSS Analytic Catalyst使得大数据的准备工作自动化,加之选取合适的分析过程,最后通过交互式可视化呈现最终结果。

在沉浸式VR(虚拟现实)平台上进行科学数据可视化当下还在研究阶段,其中包括软件和便宜的商品硬件也在研究阶段。这些具备潜在价值和创新力的多维数据可视化工具无疑为合作式数据可视化提供了便利。沉浸式可视化与传统的“桌面式”可视化相比具备明显的优势,因为它可以更好地展现数据景观结构并进行更直观的数据分析。它还应是我们探索更高维度、更抽象大数据的基点之一。人类固有的认知模式(或者说是视觉认知)技能能够通过使用与沉浸式VR相关的新型数据实现最大化。