规避大数据风险:勿盲目跟风 目标很重要

7月13日在北京亮马河饭店举行的第二届“大数据世界论坛” (BDWF 2012)显示,业界的数据库、芯片、存储和数据分析和管理的厂商们,都积极提出了自家的大数据解决方案,而大数据技术在金融、证券、电信、互联网各行业的刚性需求明显,但实际的应用仍处在探索之中。企业和提供商都不可忽略的是,掘金大数据的同时,要如何防范仍存在的风险。

现在应对大数据,可以以高可用高可靠高可扩展性的基础架构,和高性能的分析系统来应对,然而,谈大数据的风险,谈数据挖掘,它的效果到底多好?事实上是需要得到验证的。规避大数据的风险,即不能盲目跟风,特别要明确实施大数据的目标,要有切实可行的规划,此外要有足够好的数据质量。

大数据的“第四V”——价值

数据规模大、处理速度快和数据种类繁多(volume, velocity, variability)——这是大数据知名的3V特征。不过,现在专家们明确给大数据大家上第四个V——Value,即企业要实现的是大数据的价值。

由于3V的存在,第四V的实现,必然需要新的技术,这也是大数据概念风靡的原因。获得价值,需要构建一套更灵活、更强力的数据管理系统,不仅数据库、数据分析技术要改进,底层架构也需要适时改变。

微软亚太研发集团首席技术官孙博凯认为,大数据端到端的生命周期,可分成三步:管理数据、获取存储以及保护数据。大数据不仅需要管理数据,更要获取数据丰富的数据,不管是关系型,非关系型还有流线型,最终从数据中得到洞察力。

SAS软件研究开发(北京)有限公司总经理刘政表示,大数据时代,要求存储设备和存储方式改变,存储数据是为了查询,但仅查询,不分析就是极大的浪费。而传统的分析能力不能及时处理大数据,也就是说,大数据时代,高性能分析是关键。刘政提出了通过工作量分配到不同机器的网格计算、把分析过程放到数据库内的内分析和把数据和分析方法放到内存中执行的内存分析三种方式,形成大数据分析所需要的高性能分析能力。

英特尔(中国)有限公司行业合作与解决方案部中国区总监凌琦表示,三个V之后的value,是对已有关系型数据分析的充分补充,分析引擎必须有能力分析关系型和非关系型的数据。他认为,传统SAN、NAS已经不适应大数据的处理,当前更需要scale-out存储架构,同时还需要实时的数据流处理——也就是需要高性能分析能力,这需要高性能分析处理器的支持。

甲骨文大中华区技术总经理喻思成则认为,大数据可能只是企业完整的数据处理平台的一部分。

NetApp大中华区技术及专业服务部总监何英华提出了一个与众不同的ABC——大分析(Analytics)、高带宽(Banduidth)、大内容(Content)。大分析:分析是要对数据有一个洞见,超大数据的实时 分析;高带宽:数据一来就要分析结果,做出报表;大内容:大内容是基本上不要丢失任何的东西。

他认为,可以采取简单的策略,在开发Hadoop应用有实时的分析等等。在高带宽方面有一些video方面要处理,在大内容上有一些内容。在这三个方面都有开发产品去应和。

刚需大实践乏

厂商们提出了自己的解决思路,行业企业用户则证实了大数据的刚性需求。中国移动研究院首席科学家杨景指出,建立一个灵活的车联网,可以解决当前城市发展越到的堵车等各种问题,国金证券高级分析师赵国栋,中国人工智能学会机器博弈专委会副主任刘知青也都提出了实际的需求,如用来分析商业公司的前景,用来解决围棋系统的计算,等等。