一、我国的大数据战略
近年来,对大数据的定义较为多样。第462次香山会议 (2013年5月29日—31日)提出了大数据通俗的定义:大数据是数字化生存时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式。大数据是来源众多、类型多样、大而复杂、具有潜在价值,但难以在期望时间内处理和分析的数据集。
我国的“十三五”规划纲要提出实施国家大数据战略,把大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。
大数据的高效采集、有效整合、融合利用可以提高国家宏观调控、市场监管、社会治理和公共服务的精准性和有效性;依托政府数据建立统一的大数据共享交换平台,对加快推进跨部门数据资源共享共用具有较强的实践意义。因此,急需加快深化政府数据和社会数据关联分析,建设国家政府数据统一开放平台,推动政府信息系统和公共数据互联开放共享;研究制定数据开放、保护等法律法规,制定政府信息资源管理办法;深化大数据在各行业的创新应用,探索与传统产业协同发展新业态新模式,加快完善大数据产业链;加快海量数据采集、存储、清洗、分析发掘、可视化、安全与隐私保护等领域关键技术攻关;促进大数据软硬件产品发展。完善大数据产业公共服务支撑体系和生态体系,加强标准体系和质量技术基础建设。
在当前的国内经济、政策背景下,中国科学院大数据挖掘与知识管理重点实验室采用先进的数据挖掘技术解决当前社会众多现实问题,使其真正做到普惠民众。目前,在大数据支持下,我国已经成功建立全国个人信用评分系统,正在建设新一代居民身份证等一系列重要的个人信息、信用系统。未来的大数据还将继续深入涉足医疗、生物、航天、金融等社会的各行各业。
二、大数据发展现状与潜力
数据挖掘的技术应用有其较为普适的流程。在具体实际操作中,我们对来自经济、社会方面的大数据进行收集,基于Hadoop、Magreduce对大数据进行储存与处理,然后利用最优化大数据挖掘技术进行大数据挖掘(理论与算法);在大数据的数据处理、分析和挖掘层面上,大数据应该既要全体,又要抽样,大数据的抽样比小数据的抽样更具有普适性;大数据应从粗糙中寻求精确;大数据应从相关关系中把握因果关系与必然关系。随后利用大数据智能知识管理,进行大数据知识生成,最后基于大数据科学分析的高层政策建议,将大数据技术应用于社会与经济层面。
大数据具有4V基本特征:体量大(Volume)、数据类型繁多(Variety)、价值密度低(Value)、处理迅速(Velocity)。随着经济社会的健康发展,大数据近些年来呈现出指数级增长趋势。根据IDC调查的研究报告显示:2012年全球信息化资料量为2.8ZB (泽字节),其中美国约占全球数据量的32%,西欧占19%,中国占13%,印度占4%,其他市场合占32%;2020年全球的数据资料存储量将达到40ZB(泽字节),中国将占全球数据产量的22%;40ZB (泽字节)的数据量约等于地球上沙滩上所有沙粒总和的47倍。
在现实生活中,大数据的应用非常广泛。例如,在商业环境中,通过大数据分析,快销行业可以更全面地了解客户的信息,从而准确预测客户的需求,合理安排商品摆放格局;电信行业可以更好地分析用户使用习惯及特征,从而准确预测可能流失的客户,推出更有吸引力的套餐方案;保险行业可以更准确掌握客户健康情况、驾驶水平等相关信息。其中,大数据发挥显著作用较为典型的领域是互联网行业和金融行业。
目前中国大型的商业银行和保险公司的数据量已经超过100TB,中国金融行业已经形成共识——数据是一种重要的资产。中国金融行业已步入大数据时代的初期阶段,并且呈现快速发展势头,未来的金融业将开展新一轮围绕大数据的IT建设投资。优秀的数据分析能力是当今金融市场创新的关键,资本管理、交易执行、安全和反欺诈等相关的数据洞察力,成为金融企业运作和发展的核心竞争力。目前,以大数据为代表的新型技术将在两个层面改造金融业。伴随着大数据应用、技术革新及商业模式创新,金融业中的银行和券商也迎来巨大的转变。金融交易形式的电子化和数字化,如支付电子化、渠道网络化、信用数字化;金融交易结构的变化,如交易中介脱媒化、服务中介功能弱化。对于风险投资,一个较可行的做法是,在开始时做出定性假设,在中间的决策部分让定量数据支持和检验假设,最后得出定性结论。其中,定量数据部分运用数据挖掘技术,可以为投资决策提供有力的分析支持。