大数据以其“浅显易懂”的概念和预想中的巨大应用前景,成为了继云计算、物联网之后信息技术领域的又一热点。但在各界的加倍关注中,国内大数据领域的明显进展未现,却已经显示出或多或少的“泡沫”。借大数据之名圈钱圈地或进行重复建设的苗头已然出现。这种情况下,需要深化对大数据内涵与特征的认识。基于对大数据的跟踪研究,赛迪智库认为,可重点从四个方面进行认识和把握。
大数据发展的重点在于对数据对象的分析与应用
曾听到专家对某地方政府领导建言,建设大规模的数据中心,备份存储用户的数据,就是发展大数据产业;也有机构提出发展大数据必须重点加强基础设施建设。这些观点都偏离了大数据的本意,也会将大数据发展引向歧途。
从根本上看,“大数据”并非一个科学、严格的概念,它来自于对数据规模的爆炸性增长这一现象的归纳。但在“海量数据”、“大规模数据”等概念已经存在的前提下,之所以还要提出新的概念,就是因为既有概念只着眼于数据规模本身,未能充分反映数据爆炸大背景下的数据处理与应用需求。而“大数据”这一概念所以能够引发共识,成为当前热点,就在于各个行业领域具有了对大数据分析和利用的巨大现实需求和具体应用需求。所以说,大数据的内涵,不仅指规模超出传统技术处理能力的静态的数据对象,又包含着对这些数据对象的动态的处理和应用活动。
若再考察数据的生命周期,从数据生成、数据传输、数据采集,到数据处理、数据分析、数据应用,会涉及多个环节和若干层面,但就大数据而言,其重点不在于对数据的传输、收集、存储,而是重在对数据的分析挖掘,并由此获得凭直觉难以发现的有用信息。惟有将重点放在数据的分析挖掘与应用上,才能最大程度地实现大数据的真正价值,也惟有分析与应用才是大数据及大数据产业发展的重中之重。也因此,我们认为以分析处理为主要内容的大数据服务将是大数据发展的核心。
大数据对象的重点在于获取与使用
若仅就大数据内涵中所涉及的数据对象而言,有些观点认为,必须下大力气做好源数据集合的建设。这种观点,有道理,但也不完全正确。例如,要想运用大数据手段实现智能交通,需要有城市的道路规划、车辆、停车场等数据,这些数据多由政府部门所掌握,对相应数据库确实需要加强建设。但是,要想根据实际情况实时、灵活地管理交通,实现有效运行,仅靠以上数据远远不够,还必须随时跟踪和整理道路流量数据、停车场容量数据、天气数据、道路事故信息等,而这些数据,不仅会来自于包括交管等部门,还能够通过微博、微信等渠道获取,甚至很多时候微博上的信息比管理部门的数据要更加迅速。那么众所周知,微博等信息源是开放式的,任何部门都无法“拥有”这些数据,惟一能做的就是尽力抓取、尽快收集整理。若是多分析几个类似的事例就会发现,在处理突发事件的应用需求之下,实时出现和获取的动态数据要比通常数据库中的静态数据更有价值,微博、搜索引擎等公开来源的数据也往往比数据使用部门(如上述例子中的交管部门)所掌握的内部数据更有价值。
因此,对于大数据所涉及的数据对象,必须分类对待。对政府部门、公共服务机构、企业等所掌握和持续更新的数据,需要加强建设,作为数据应用的基础。但同时,必须重视微博、微信、社交网络、搜索引擎等新兴数据源,做好对相关数据的跟踪、抓取、整理和应用。
大数据作用的重点在于启发与辅助决策
IBM最近提出了大数据的又一特征,真实与准确。但客观来看,这一特征还有待商榷。事实上,虽然大数据应用的目标和理想结果,是通过对大数据对象的分析挖掘,发现新的知识规则和新的有用信息,但是对于由计算机完成的大数据分析处理,不应也不能苛求其分析结果的完全准确,乃至于对于大数据所涉及的源数据对象,也无法要求其真实准确。
从源数据对象看,会包括微博数据、社交网络数据、搜索引擎数据等,由于各种原因,数据中不可避免的会包括各种错误数据、无用数据。即使通过一定的数据清洗、数据过滤手段,也无法完全确保其真实性和正确性。但大数据的价值本来就在于从纷繁复杂的数据对象中发现有用的信息,去芜存真本就是其要完成的过程性工作之一。所以,真实、准确只是一个相对的概念,要向之努力,但不能强求。