聚焦云环境下大数据有效应用

随着互联网深入发展和移动互联网的日益普及,大数据孕育而生,云与大数据成为人们关注的热点。在近日召开的GMIC北京2017云与大数据峰会上,多位业界专家分享了云环境下大数据的有效应用话题。

中国大数据被禁锢在不同孤岛里

大数据开启了一个时代的转型,给人们带来了生活、工作与思维的大变革。时代的变革需要以大数据为视角理解数据与信息。

此次峰会上,北京腾云天下科技有限公司TalkingData合伙人兼副总裁高铎表示,中国的数据被禁锢在三群孤岛里。第一群孤岛是政府,政府部门的割裂导致不相同的数据掌握在各个政府部门里。第二群孤岛是运营商,中国的三大运营商数据内部割裂,例如中国移动,在各个省也很难统一打通。第三群孤岛是互联网巨头企业,例如BAT,BAT的数据也是打不通的,各自为政。因为KPI不一样,所以互联网巨头企业的数据,本身外部打不通,内部行不通,中国的大数据生生被三大数据孤岛群所割裂,这就是数据的现状。

非结构化数据占据主导地位  

亚马逊AWS首席云计算技术顾问费良宏表示,大数据的发展,有两种明显态势需要引起大家的重视。一方面是大数据规模膨胀。几年前人们还认为大数据只是GB、PB级别,接下来会看到,从TB到ZB的增长速度已经越来越快了。接下来5年、10年会有一个新的认知。另一方面是非结构化数据已经占据了主导地位。比如说基因工程、社交媒体等以非结构化形式存在,以往大家熟悉的结构化模式已经不太适用了。

对于大数据的设计架构原则,费良宏总结归纳为五点,即解耦数据总线、选择恰当工具、有效利用云计算、以日志为中心、并且具有成本意识。大数据是一切的中心,可以推动行业的创新和发展。

三大因素影响大数据商务发展     

DataStreams CEO李荣祥表示,过去十几二十年来,韩国金融业,特别是银行业的发展状况。在1994年韩国有了第一次电话银行业务,紧随其后,由于互联网的发展,打造出非常多的互联网衍生业务。1999年开展了互联网银行的业务。大家对两家互联网银行新的服务模式感到非常的新鲜和刺激。但因时机不够成熟,大数据下的商业业务发展框架,有了三大影响因素。首先,原始数据质量烦杂亟须处理。利用硅谷的开源技术可以打造属于自己的大数据平台。但这还不太够,虽然可以通过开源技术的渠道可以获取到数据,但是对于数据的处理是不够的,因为数据的质量才是关键。一方面需要有效的数据,另一方面也需要有效的控制数据,只有这样的工作才有意义。

其次,数据融合是大数据分析的关键。通过数据库我们可以进行各种搜索并且调用数据,但是在大数据的平台中,其实数据库的管理系统并不是最重要的,数据的融合才是重中之重。因为数据的种类实在是十分多样,为了更好的分析数据,要有不同的数据结构,融合不同的数据,所以这就是大数据分析中最核心的一环了。

再次,未来大数据的存储和加工科技的不断推动下,未来大数据的储存和加工来帮助更好的储存数据和加工数据,将储存的数据进行分类、加工。大数据应用的扩展以及功能的扩展是未来发展的趋势,同时使用卡和数据的储存,数字化的储存,所以通过查询就可以找到所需要的信息。

数据变成知识才更具价值

费良宏认为,从大数据应用场景来看无非是3种应用模式。

1.批处理模式,从事大数据的人已经很熟悉了,在今天和过去都用这样的方法来操控大数据。2.流处理,流处理是过去几年出现的,且如今已经越来越普遍了。流处理模式有其特定的历史渊源,主要来自于数据产生的特殊性以及处理的特殊要求。3.机器学习数据本身并不具有价值,如果把它变成一种知识,其数据才会变得更有价值,这个关键就是机器学习。

机器学习可以帮助人们解决从数据到知识化的难题,所以人工智能是很热的话题,但核心的问题是在大数据的环境里,如何利用批处理、流处理、机器学习达成我们的目标。过去两年里,渐渐兴起数据湖概念,数据湖在某种意义上强调企业建立一个全数据的集中管理能力。“利用目前云计算和大数据的处理能力,真的可以为企业提供全数据的概念,利用全数据在大数据的操作、分析,不同主题的应用里,就具备了真正意义上的大数据的处理。”费良宏说。