圆桌论坛:大数据及基础设施

雷涛:我们开始第二场的大数据主题论坛,有请几位嘉宾。今天我们要讨论这么一个主题,大数据及基础设施,这个题目很挑战,因为这个概念在两三年前都在讨论,在业内的一些小沙龙里讨论,今天在市场上有一些声音。现在像淘宝这些互联网公司,有一个深刻的认同,在信息化框架过程中,有一场颠覆。不仅是从应用的角度,更多的是从基础设施,都开始了一个新的尝试。现在互联的大型企业,谈大数据。我们在企业里都发生了什么。今天请到了几位企业的领袖代表和产业界的代表,就这个主题听一下大家的想法。先问一下范总,联通走的很早,在执行层很了不起,我们请您谈一下,从联通的角度,我们怎么落地基础设施,最近你的一些想法,和建设的规范。

范济安:谢谢,我是中国联通信息化事业部数据中心的,我前几个月加盟联通,负责大数据平台的建设。如果说咱们今天的话题是大数据平台的基础设施的建设,确实联通公司在这方面的尝试,可以追溯到两三年。作为电信运营商来讲!实际上数据对于我们来说,我们的生活工具,所有网络的生产,都是基于数据的。最早我们有一套传统的系统平台。做一些基础的数据,或者是报表类、指标类数据的处理。第一步对大数据的尝试,我们领导层从对产品和网络的关注,转到了对用户的关注。在这种情况下,需要我们把用户级别的明细数据搜上来。这些对基础设施的架构,尤其从数据库的角度,数据仓库的角度来说有了一种挑战。在这种基础之上,我们也引入了分布式的数据库。

后来在基础之上,又迈出了第二步。第二步开始尝试所谓的非结构化、半结构化的数据的处理和应用。在这方面比较典型的使用案例就是在运营商当中,第一个推出了移动用户的上网记录的查询,和3G流量的查询,采用hadoop。等一下再具体讲我们下一步的规范。

雷涛:联通是很了不起的,淘宝的人谈双11当天的交易量是350亿,联通的服务器系统,我们参与进来,每天都有很多的数据。在大的体量里面,国家能源就是国家电网,国家电网的大型EAP系统,想听一下刘总国家电网这块怎么面向大数据,怎么迎接这样一个巨大的挑战,有什么新的架构思路?

刘建明:我现在调到国家电网公司科技部,我们这个部门也是智能电网部,在这工作,实际上作为大数据,刚才上一轮的专家讲的和联通讲的我都非常的同意,我们数据分析一直在做。随着这次大数据的浪潮,或者是大数据时代的产生。我们从2012年开始,智能电网、智能电表起来,数据的应用更多。开展了很多的工作。从去年到今年,两年的时间,国家电网公司,做了很多的工作。

但是我们认为不够,昨天我在亦庄提到,我们2014年国家电网公司专门安排了一些大数据方面研究的题目。时间关系,我就把这个题目给大家介绍一下,欢迎大家参加大数据的研究工作。一个是准备做电力大数据的基础体系架构,做了两年的工作以后具体的体系架构。

第二个主题是大数据在智能电网里面的技能体系和路线图。第一、第四、第五个主题都是具体的工作,输配电设备的运行和检修,大数据的分析和监控。除了智能用电这两个方面就是电网的复杂性。

还有配电网,我们这个楼,小区,都属于配电网的管理范畴,基础计算的优化。还有一个刚才讲了智能电表,我们现在全国已经装了接近两亿,这些智能电表的应用和数据,刚才讲到桥。从时间上讲,我们是15分钟一组数据,也有提5分钟一组数据。如果5分钟是288点,这些数据的应用分析,我们可以指导老百姓合理的用电,这些都是大数据重点要开展的工作。

雷涛:这个题目确实很好,我们在2011年成立了一个实验室,这些数据对我们基础设施的能力,传统的数据库很难应对,才会有去IOE新的方式。刚才两位是从用户端来看,带来了很大的基础市场。我想把这个问题交给邓总,邓总是做支撑的,传统的IOE是由小型机制作支撑,服务器跟传统有多大的区别,我们面向大数据的应用,我们作为一个供应商,怎么去思考和运营支撑这个?

邓洪升:我有两个数据,第一个数据就是,2008年的时候,四分之一的服务器CPU,由三家企业提供,IBM、惠普、戴尔。2012年由八家企业承担。这说明什么问题?我们整个市场的服务器品牌,服务器厂商离散化越来越明确。现在也可以看出来,服务器领域,思科和甲骨文也加入了,国内华为也在发力服务器的市场。这也是未来大数据和云计算带给服务器的一些变革,使得很多企业有机会加入到里面。

第二、国内的市场,有一个IDC的数据。在我们Q2的时候,国产服务器已经超过了国际服务器的水平,这是历史上第一次。几年前国产服务器非常惨,现在已经初步的超越国际的市场。这都是取代原来封闭的,不开放的体系一个道路。

雷涛:这真是一个巨大无比的市场机会,服务器不仅替代的外资厂商服务器,还有主流的小型机的市场。这个产业结构发生了很大的变化。我们以前做信息化的服务商。我们更多的是面向IOE的企业,把西方的信息化产业我们做支撑、分销,不同的厂商体系的分布。产业链的结构非常的丰富和定制化,现在我们用新的结构去做,吴总你们已经找到了这种方式,这样的一个定位,跟传统更大市场的对抗,最您的企业经营里面,遇到了哪些挑战,有那些经验可以分享?我们面对新的产业挑战的时候我们应该需要到什么,应该注意什么?

吴强:过去七年的时间,我们一直坚持用SAAS的模式,用创新的方式,为企业提供呼叫中心的技术平台服务。呼叫中心是比较专业的市场,最早创业的时候,我们是基于成本的考虑。所以一直坚持用开源的软件,X86的服务器,分布式的存储。当时完全是出于成本的考虑。2010年我们发现我们符合一个潮流,但是整个的过程中,我们创业几年的过程中,用户对我们的质疑一直不断,就是稳定性、可靠性的质疑。说你X86的服务器,你能够保证我大规模呼叫的情况下稳定性吗,所以一直我们面临质疑。我相信铜业的公司,提供类似服务,这个过程中也应该会面临这方面的挑战。近一两年的挑战,陆续的减少一些。我们遇到的质疑的减少,最重要的是来自于我们有一些云的应用是在传统架构下,实现起来非常的困难。

举一个例子,这个呼叫中心很重要的一点就是研究人的效率,座席员的效率,你打电话咨询没买东西,这个电话咨询三分钟,耗掉他十几块钱的人工。我们过去每年想怎么提高人的工作效率,让间隙的时间缩短,让这个人的排班更优化,更合理,每年提高10%的人均生活力,人工涨15%,效率又下降了5%,每年都在做这个事情。

在我们传统的BI的模式下很难解决这个问题,你说怎么把一个咨询,一个订单的处理,从15块降到1块五,不可能。这个时候你怎么办?必须是动态的。我们大家都有打客服电话的经验,我打进来已经打了100次,从来没有选择英文,但是还是会说英文请按2。你进来以后我首先要查询你过去50次的咨询,如果从来没按过英文,你直接把它跳过去,你必须要毫秒级的范围内完成这个工作。

再举一个例子,我在网上双11的时候保障也很困难,双11完了就是物流。双11的时候你已经下过一个订单,你在没有下第二个订单,电话打进来还是走同样的流程,你知道他是查询状态的,你直接告诉他订单到哪了,20秒钟就可以完成。

雷涛:你没有回答我的的问题,你很急切的跳到应用,基于数据本身的应用,现在越来越让人兴奋。这就涉及到我们基础设施的一块,刚才我们谈的,怎么更有能力的处理数据,还要思考怎么聪明的处理这些数据。中国有一个院士提到,下一代的数据我们应该怎么陈列。现在我们看到有很多的方式。这些不同的内容让我们重新的思考,我们的基础设施发生了哪些变化。我们请到了我们的合作伙伴靳若明教授,你用平时的语言,来解答一下我们在不用表来表达信息以后,我们该用什么样的基础设施,基础架构,把我们的信息重新的组织起来。

靳若明:非常感谢,我们现在研究的,或者是开发主要的产品,是完整的基于图的数据库。我稍微的介绍一下现在的状况。现在关系数据库已经做了四十多年的历史,现在关系数据库遇到最大的问题,是两方面的,一方面是数据量特别大的时候,实际上存储它或者是访问它都是非常难的。美国做并行数据库最大的供应商,他的一个产品至少是几百万美元给一个企业做。但是即使是这样,他仍然在性能上有很多的问题。在另外一方面现在很多人都做hadoop,hadoop带来了创新?谷歌做的时候解决的问题是把数据变得简化。以前的关系数据库,有很多的表。在hadoop里,你可以考虑你只有一个表,这个数据每个都是一行一行的数据,大多数的应用,当你扫描一个表,或者是很多的非结构化的数据的时候,你可以很快的对它做扫描,对它一遍之后就可以完成计算。大多数企业在现在看到的时候,就是说用hadoop可以解决很多他们处理不了的问题。大数据进来的数据,是比较简单的数据。但是实际上这只是解决了这个问题的一部分。对于现在大多数的企业遇到的比较大的难题,就是一个关系。当你考虑在企业里面,客户之间,或者是产品和产品之间,客户和产品之间,它是一种很复杂的关系。用关系数据库记录的一方面,不仅是几百个表,上千个表,上万个表去记录这个数据当你把数据存进来之后,再做分析这个事情就变得很痛苦。

大家可能都用人人网,或者是微信、微博,实际上是一种社交的网络。社交网络带来的变革,我们现在有几个亿的用户,他们之间产生了很复杂的关系。怎么去分析这种图的关系的数据,用现在的关系数据,解决非常的麻烦。基于这个,不仅是我们,在硅谷在全世界,最近五六年提供了一个概念,就是基于图数据库来解决这个问题。相当于你用社交网络的形式,或者是互联网的形式描述数据。这里面有节点,有边,节点可以是人,可以是商品,可以是各种各样的东西。任何产品和人之间产生的交互,都可以用边来描述它,这是一张很复杂的关系的图。

我们来解决的问题就是怎么对这么大的一个图,对它做实时的计算,对他做实时的数据处理。

雷涛:我听的明白,hadoop帮我们做了数据整合,解决传统里面结构里面很难融合的数据问题。但是它还是没有办法挖掘更深层次的数据内容。有了这些内容以后,什么样的应用会出现?李总现在做了一个应用,就是今晚看什么,是基于遥控器的过程,就知道我今天晚上该看什么电影?这个过程你能不能从用户的角度,对我们刚才谈的基础设施做一个大家听得懂的讲解。

李馥岑:我们相比电信和电力行业来讲,我们是比较小的,我们总产值是2800亿,实现了全部的产值。广告收入占1200亿左右,但是我们这个产业是国家唯一一个改革开放30多年来,每年年增长率都超过GDP的行业。电影的这块行业来讲,去年是130亿,但是是连续九年超过30%的递增。应该来讲,我们是属于文化产业,但是在总产值并不太高,它是非常高速发展的产业,也是非常严重依赖数据的产业。

我们刚才说的1000亿的广告市场,主要靠收听率、收视率进行交易,我们的数据是虚拟的货币,大家要依靠数据进行交易。第二、我们数据流通是必须的。类似像我们第三方的调研公司和做整合的公司,整个有10亿左右的市场,我们广告收入能达到1%。和发达国家相比,在美国这个数据能达到4%。相对来讲,我认为我们国家还有很高的提升空间。

因为我们现在整个的行业第一是非常依赖数据,数据的货币化,和流通性已经不成问题。第三个就是现在在三网融合的技术革新下,富媒体情况下,造成了我们的收视形态有很大的改变。这时候需要重新构架我们行业的标准。我们当年很多时候做事后评估,至少是48小时之后,才能出完整的报告,评估你昨天的节目是有多少人看,收视率,关注度是多少。我这档节目的制片人,你在台里是末尾淘汰,还是有更好的提升。我们为什么重新用大数据构建这个行业的应用。

看电视的新办法,怎么依赖与数据。看电视这个事,我们现在的生活是碎片化的,但是从美国来看,每天看电视是平均5个小时,中国人均看电视小时数在2个半小时,但是第二个现象我们也发现,看电视的时候,我们伴随性行为很大,电视还是影响我们最大的媒体,这是毋庸置疑的。我们希望跟雷总技术平台的合作,达到一些场景的应用。我们想看电视的时候,就能推算出来你历史上最想看的电视是什么?但是对于我们每个人来讲,一个人就是看七到八个频道,我们会让这个电视机变得更智能一些。电视是家庭共享的终端,我们会按时间分出你在这个时间点,你家庭里传统在看什么频道,让你快速的找到电视。这是一种比较简单的应用。

第二、对于我们这个行业,起到重塑作用的就是广告的精准投放。为什么大家也很讨厌收视率,因为央视的名嘴都说收视率是万恶之源。你可能做一些高端大气上档次的节目,比如央视纪录片频道,包括科教类的频道,收视率比较低,但是节目质量更好。但是从总体的经济判断来讲,他的收视还是低的。我们用先的数据结构和轮廓,把这个真实的喜好也测出来。第二是我们在创新上,比如说,广告的精准投放,在这种类型上,补贴收视率原来产生的不好影响。

因为我们高端的节目,我们集中的人群,肯定是高层次的人群。收视率总的低,但是广告的取向性不一样。第二、单纯的价格肯定要提升上去。这样反馈回来,对我们制作节目,有一个更好的促进和督导。

雷涛:你的发言让我想起第二个问题。在座的各位,这么多人一方面是想听大数据的企业去分享一些经验。另一方面也是在看有什么的资源我们可以获取。这个问题先问问联通。我们现在在做的一些支撑,包括做精准推荐,我们也在跟联通做合作,都是面向自身的业务经营。刚才在政府的环节里面,大家提到了一个问题,我的数据怎么释放出来。我能不能开放给精准的企业。在数据外部属性的释放上,联通有没有一些考虑?现在已经开始把数据和服务形式在开放,在通信企业里面,除了hadoop的自有支撑,有没有这样的一些思考和归还。

范济安:数据开放,对运营商说,是很尖锐的问题,不光是对外的开放,对内的开放,也是很大的挑战。我们信息系统、数据处理系统,都是跟应用绑在一起。第一步要把数据开放出来,首先让数据流通起来,能够提供一个技术的平台,提供一个基础的设施。让数据能够流通起来,整合起来。然后才能够对内和对外开放,这是从技术的角度看这个问题。

另外,你以怎样的方式来对外,对内开放。前面也谈到了。昨天我也参加政府的一个论坛。首先我觉得运营商确实是掌握了很多的数据。怎样把这个金矿,从矿石提炼金子,整个的过程又谁完整?这确实原来作为垄断企业,想从底层一直做到我把首饰卖到你的手里,现在我可能把金矿提炼出来,给你提供工具,把应用的部分交给大家。这种方式刚才讲了,有技术层面的挑战,也有政策环境方面的挑战。所以我刚才觉得,想提一个问题,政府应该起什么样的角色,是倡导者,还是什么?政府在大数据的开放方面,能够给刚才讲到的数据资产的持有者,一个宽松的政策环境,能够让我们放心大胆的做这方面的尝试,这是很重要的需要企业和政府进行交流的一点。

雷涛:我知道电力的数据,很早用于指导,我们做宏观经济,对微观局部经济的改良,希望释放出更多的信息,这方面有没有一些规划的数据。

刘建明:政府和电力系统是互相的共享数据,我认为数据是什么呢?是不同的应用者,关心不同的数据。我们现在正在做一件工作。从2009开始,老百姓掌握自己的数据。我们现在企业也有,企业也有管自己的,我们在座的可能对老百姓的数据更关心,你自己接到自己的数据,用电的情况可以节省5%,美国是12%,13%,日本是15%。但是随着我们这几年的应用,有一些老百姓可能自己用了,最好的他用电可以节省30%。那么为什么这样讲呢?他掌握了自己的数据以后,实际上我觉得我们应该给老百姓提供一些软件。比如说谷歌曾经提过,他给提供一些软件。我们现在可以在手机上,可以在ipad、平板电脑上都可以分析自己家庭的用电情况。我们最近刚发布了白皮书,我带了几本,这里面专门介绍了体量和数据应用的情况。里面有一个小区,实际上我觉得共享的数据,应用的数据,咱们讲两亿人为智能电表,热水器、空调、洗衣机,什么时候用。我们现在用的是阶梯电价。

雷涛:电网先把数据开放出来,可能做的不只是省电了。后面我想产业界的同事,是不是可以简单的表达一下,我们面向大数据,管理的重点在哪里?

邓洪升:我觉得大数据去IOE是一个趋势,刚才大家看到两个问题。

第一、很多的数据必须存在,我们可以把大数据的系统结合起来。

第二、IOE有很多长期的优化,这几点需要我们有一个好的模式,我们已经在尝试做。我们和用户的定制层面,都需要做很多的开发。

吴强:我上次没回答雷总的问题,坦率的说,我们也很惭愧,现在有一种历史和包袱。以前我们找不到路径,确实找不到路径,这个很坦率。我们现在的方法存量就这样,增量上我们逐渐在探索。这是一个过程不能急。

靳若明:我想补充一下,这个数据到底以什么形式存在,或者是能够被挖掘做分析。这实际上是一直长期存在的问题。对于企业来讲,关系数据库会长期而且可能会永远存在。与此同时,图数据库可能在分析,还有集成方面会发生很重要的作用。数据永远是动态的过程,有很多合作的机会。

李馥岑:我们想先用创新的商业模式和技术形式,先做好数据的汇聚平台。要把全国的汇聚平台做好,做好之后,还要再在它的实时计算。看是用许可,还是用流量计费的商业模式上来讲,跟商家对接好。

雷涛:感谢大家,今天给大家分享了这么多的信息化的内容。