7月12日消息,2012中国CIO高峰论坛在九寨沟举行,以下是主题为《大数据是谎言吗?》的高峰对话。
孙泠:欢迎各位回来,我们下午的会议继续进行,上午我们的活动进行时,在微博商业展开了热烈的讨论,本次九寨活动我们使用的是搜狐和腾讯的微博,用户可以发送:#2012中国CIO高峰论坛#+任意内容参与,手机用户参与方式请见大屏幕下方,欢迎大家关注并参与现场互动。我是《IT经理世界》杂志社资深编辑孙泠,非常高兴下午主持活动,《福布斯》杂志发表了一篇题为《大数据是个大谎言》的文章,给那些大数据的拥护者泼了一盆凉水,按照文章的说法,从数据库到数据仓库再到今天的大数据,数据量的快速增长是一个趋势,而与之相对应的数据处理方式也在变化、提高,这是一个螺旋上升的发展过程。总之,大数据不是世界末日,也不是外星人,那么企业的IT部门没有必要摆出如临大敌的架势,大数据到底是不是谎言呢?今天我们邀请了几位重量级的嘉宾来共同探讨这一话题。有请本次探讨的嘉宾:通用电气中国公司亚太区IT服务总监冯中茜女士;鄂尔多斯市云泰联科技有限公司常务副总经理沈立涛先生;凡客诚品(北京)科技有限公司高级副总裁滕崧先生;京东商城高级副总裁李大学先生;南京军区福州总医院信息中心主任陈金雄先生;有请各位嘉宾台上讲座。大数据是2012年企业的最重要的词了,我想问各位嘉宾你心目中的大数据是什么,各位嘉宾的面前有笔和纸,请您写出您心目中的大数据。李总写的是海量、挖掘、举动,滕总写的是海量、多样、技术,冯中茜女士写的是数据流、移动性、多样性、沈总写的是方法性、相对性、泛载性,陈总写的是数据量大、价值、管理,我们请各位来解释一下您写的关键词。
陈金雄:大数据顾名思义就是数量很大,海量数据,第二个海量数据一定是有价值的,一定有挖掘的潜力和价值,第三个的话应该需要一种先进的工具来进行管理,如果没有很好的工具来管理的话,这个数据就体现不出来。
孙泠:沈总您写的比较哲学性。
沈立涛:为我们说方法论,大数据提出来以后,从数据员的设计,到产生到加工,实际上就是一个方法论的体系,这个体系对我们的商业运营带来一定的冲击,第二它有一个相对性的问题,一个我们说大数据的时候线性非线性,都是一些相对的因素,在我们的应用层面里面,我们为了适应我们的需求,做怎么样的相对性的数据的规划,泛载性是很强的,在这样的情况下如何把有益的数据弄出来,这是一个非常大的困难和问题。
冯中茜:我觉得大数据就是一个名词而已,以前在IT这么多的应用里头,我们无时无刻不在跟数据打交道,以前可能是小数据,现在是大数据,以前我们都用的是数据仓库,我们都是静态的数据,数据都是存储在里面的,现在很多感受,实际上是一个数据流,包括像我们最近用了很多软件,包括有遇到搜狗的一个导航软件,其实有一个数据的流动性和移动性,所以更多的给我的感受是数据流,其实在这个数据留种怎么能捕捉到更有用,更实用,更有商业价值的信息是比较重要的,包括我们从不同的纬度看这个数据,所以我觉得更多的是数据流、移动性和数据的多样性。
主持人:李总和滕总都是做商业的,你们第一个词都是海量,您就讲一下挖掘和驱动吧。
李大学:如果我们挖掘出有价值的东西,如果我们不好好的利用,用于决策,用于我们的开源和截流,或者更大程度的应用他,那就不行,我觉得大数据是一个动词,更好的帮助我们开源节流。
滕崧:我想说的现在一个差异是多样性,现实的数据大家知道不只是一些文本数据和数字,其实现在有更多的音屏的数据,另一个随着技术的发展,才使我们现在有可能做这种特别大的数量级数据的分析,比如说心里很难想象十年前或者十五年前分析上T上TB的那是完全不可能的,但是随着硬件的发展,包括一些软件,包括一些结构的发展,更多的是分析海量的信息。
孙泠:谢谢大家对大数据发表自己的看法,下面请大家写上大数据是不是谎言。五位嘉宾全部的选择都是大数据不是一个谎言。
滕崧:凡是卖大数据解决方案的厂商,对他们来说都是谎言,但是我们作为使用者我们觉得都不是谎言,所以不一定。
孙泠:下面我想跟大家分享一下对各自企业的工作中,对大数据有没有一些问题,是如何解决的,对于冯总来说大数据这个工作意味着什么呢?
冯中茜:其实大数据已经讨论了很长时间了,我说句很实在的,其实以前都没有什么落地的解决方案,我不知道在座的公司是不是这样,我们只是从去年开始有一些实际的解决方案,我正好也借这个机会跟大家分享一下,第一个我们在美国、能源的方面我们有一个GE业务部门,这个风能有很多数据的分析,包括怎么布这个风能发电机,包括风向、地理环境,空气检测,还有地理地况这些数据都放在一起,而这个风力发电机有很多的考量指标,最后经过这个大数据分析以后,做出来一个,它在有效的路程内有风力发电机,第一减少了浪费,第二有效的应用。我说两个大数据的案例,我们云计算讨论很多了,我用大数据做了一个网络的监控,网络监控大家知道我们在亚洲有几百个点,几百个点包括公司内部运营和辐射到各个医院,医疗这方面的,有几千几万个点的网络设备的采集,网络系统运营的采集,这是现在放在云端的,但是我们前面的网络监控是一个实时监控,我们设定了一个指标,他追踪到网络故障,或者网络利用率使用高了会报错,这是一个实时的数据监控,我们也有设定的值,如果这个网络发生异常报警,会有一个系统做深层次的分析,是因为瞬间的控制有问题还是瞬间的网络有问题还是确实网络有问题,通过这个我们可以检测到网络健康,我们以前都是凭借静态的数据库做分析,但是我们现在有了这些动态的工具,我们可以提供给事业部门,或者是医院,我们可以针对这个作出解决方案。第二个在也是医疗,我们在中国建立了一个呼叫中心,呼叫中心里面客户的数据也是大量的,比如说医院打电话过来,医院因为买了医疗设备,打电话过来咨询一些问题,或者报故障,我们也设定了如果接通率在15秒以内又断了的,和主叫被叫通话15秒以内断了的都有一个数据,前台的呼叫中心也有一个视频和互动,他们之间也是有一个互动,还有一个即时通信和即时消息,形成了一个坐席给我们的呼叫中心,而且也帮用户在第一时间内解决问题,所以这是在亚洲地区的一个两个应用吧。
孙泠:冯总提到的两个例子都是医疗方面的,其实我们陈主任就是福州军区医院的,对医疗部门来说它可能是所有数据类型最复杂的一个行业,不知道您在工作中有没有遇到这种问题?
陈金雄:我想数据的发展,我们学哲学都是搞调研的过程,什么大数据呢?发展到一定程度以后,对吧,需要新的技术,比如说一个单位一个企业,它的决策,它的支持都需要依靠数据来作为支撑的时候,它应该是进入一个大数据的时代,这类似于我们的汽车,汽车可能发展几十年了,一百多年了,原来的汽车是有钱人才买的汽车,但是汽车成为我们的必需品,成为我们的生活方式的时候就进入了一个汽车时代,所以我想首先对第一个问题我简单谈一点我个人的观点。第二个确实感受到数据的作用非常大,我们跟GE打交道也非常多,原来可能CT,2000年的时候一幅CT才多少?10M,现在CT已经到了320,甚至到600多,一个病人做一个全身扫描,数据量已经到了几十个G,现在这样来看,这个数据有多大?现在我们的医疗设备,大量信息的采集,为什么?随着医疗水平的提高,医疗诊断的提高,对数据的精密性越来越多,第二个从管理的角度来讲,管理的精细化,尽可能的对每一个点的数据进行采集,我记得我在10年写了一篇文章,数字化医院,这里面我提到了一个全方位,全过程,这对我们确实是产生一个非常大数据。还有一个是医院里面数据量确实是非常迫切的,医疗的复杂性,有影响的,有图形的,有标准的,有非标的,有检验的,有医生写的病历,不同的专科病历完全不一样,很多人都说医疗行业,医药信息化应该是目前最复杂的一个信息化。
孙泠:互联网公司可能面对着大数据是最直接的,我想知道凡客遇到的最迫切的问题是什么呢?
滕崧:作为互联网公司来说有非常优势的地方,因为比如说不管凡客作为网上的这种电子商务企业,它相对于传统企业最好的就是它非常容易能采集到数据,我昨天跟万达的朋友聊天,才知道万达可以通过摄像头来数,每天进了多少人,有多少人来过,对电子商务来说不需要这样,我们天生的就可以拿到几乎用户在网站上所有的数据,这是一个非常得大数据量,它也是非常大的一个保护,我们怎么样去分析它,以凡客为例,我们每天采集到的数据大概有几百G到一个T的数量级,这么大的数量我们怎么分析它?这确实是我们现在面临的挑战和问题,在这里头,就像刚刚提到的它有各式各样的数据,它有图片的,它有语音的,它有这种数据,我们怎么样在这里边找到我们最需要的,当然本身凡客相对来说很年轻,我们也是从起来开始做一些大数据的研究,比如说用分布式的方式、结构,甚至包括一些新的方式来做一些基于用户行为方式的研究,但是我们还是处在很初步的阶段。
孙泠:那想问李总的问题是京东每年大促的时候,大家最关心的其实就是网页的打开速度,还有订单的处理速度,这个是大家最关心的,京东遇到大数据的问题了吗?
李大学:我们遇到的问题,其实我们今年第一季度它的数据量超过了我们以前三年的数据量,一方面我们认为有价值的数据,我们要记录要保存的数据更多了,另一方面公司用户量的增长,这个对我们来说也是比较大的压力,另一方面是处理的压力,你发现那些传统的解决方案都不行了,你不得不采用分布式的这样一些解决方案,这对我们也是非常大的挑战。
孙泠:想问一下沈总,因为云泰是帮助企业进行数据中心搭建和管理的公司,在您的工作中,从需求的角度有没有遇到客户提出什么大数据的需求呢?
沈立涛:是这样的,确实也遇到过类似的需求,其实主要的问题还是我们从客户的角度来分析,主要是觉得他对数据价值的密度的问题,所以我觉得这四个问题里面,我感觉有一部分客户里面,非常典型的,就是因为大数据的价值比较低了以后,带来无效的数据量是非常大的,作为客户确定不了哪些是有价值的,就算能确定了,也没有好的技术能提取出来,这是面临的最大的问题,带来几个问题,有一个是浪费,如果这个数据只能存三个月,可能第四个月的时候前面的就删除了,这是对数据的浪费,第二个它要不断的扩充他的存储,我们自己存储永远跟不上数据的增长,这是我们现在面临的问题,当然我们的项目希望通过云计算技术的引进,通过IT架构的重新的规划和设计,来帮它解决问题,但是我认为现在不是一个根本性的解决方案,我认为下一步无论如何,我们作为中国的企业,必须从数据的关键字上,从关联的设计上入手,尽快的把这个搭起来,这个解决了可能面临的困难就越少一些。
孙泠:刚刚分享的是在大数据的过程中遇到的问题,下一个问题是各位认为中国企业在大数据应用方面的差距和瓶颈是什么?也同样是写三个关键词。陈主任您写好了,给大家展示一下写的是什么,理念、技术和应用。您挑一个您认为最重要的解释一下好吗?
陈金雄:记得我们2010年召开了全新数字化应用的挑战,我说三个,理念创新,技术创新、应用创新,其实理念非常的关键,我们数据你承认不承认它都在那,那怎么办呢?我们要有新的理念,企业也好,平时的管理也好,要懂得运用数据为我们的决策也好,管理也好,流程应用也好提供支撑,我觉得理念是第一重要的,第二个技术,就是说这么大的数据量怎么管理,刚刚讲过了,这个大数据和一般数据的一个很大的区别在哪里,必须大到一定的程度,刚刚京东的李总也讲,大到一定的技术一定会产生新的技术,原来可以解决,现在要分布式的解决,大到一定的程度需要新的技术来解决这个问题,所以技术,第三个就是应用,不管理念如何,最终是为了我们这个应用。
孙泠:沈总您给大家说一下您的词。
沈立涛:第一个基础、第二个需求、第三个实施。基础这一块,对我们大数据不存在这样的问题了,对我们有一些国有企业来说是有这方面的问题,这些都没有我们再来谈大数据的话,因为本身把基础设施做好,第二个说需求,我在国外工作了几年,当时让我用一个礼拜的时间去学看他的报表,当时我要先调研一下,这就是东西方文化的差异,在中国来讲,我觉得下一步的需求也是一样的,因为我们现在数据的架构都是从西方来的的,这里面我们有一个文化的差异,所以未来在需求上怎么样趋同,这是我们下一步的挑战。第三个是实施层面,实施层面我们从两个角度来讲,第一个我们从现在的数据库解决方案很高,都属于开源的架构,这些架构如果做二次分析的话,对人的要求是很高的,对部分企业能够做到,但是有很多企业是做不到的,在这里对我们的从业者提出了很高的要求,另一个在基础设施层面上,大家现在要做大的,高级别的数据中心来应对大数据,虽然我是搞数据的,希望大家多用到数据中心,特别是在不明晰的时候,我们搞小一点,有弹性的,能灵活部署的来操作,可能对企业是比较好的。
孙泠:冯总您的关键词?
冯中茜:我觉得第一个是基础架构,第二个是(tools),第三个是可视化,如果提到中国的瓶颈我认为中国有几个瓶颈,第一个中国现有的跟亚洲其他国家比,如果从成熟性、可用性可扩张性来讲只是比泰国和越南、印度要高,远不如日本、韩国、澳大利亚,因为我分管全亚洲,所以我为亚洲整个的结构都有一个比较详细的数据,中国这方面我认为还是有一点落后,哪怕是跟香港、台湾比,可能都还是有一定的距离。第二个在数据中心上,我们现在的数据中心,我两个月前在上海用的也是电信的CTIDC,我觉得大数据上有很多基础架构的问题,它有存储、安全方面的问题,如果我们的基础架构都没有,我们谈大数据有点太早了,所以我认为中国的基础架构是一个瓶颈。可能我这个有点片面,只是我个人的观点。第二个实现这些的工具有哪些,因为你除了比如说医疗影像、图片传上来以后,可能大家会有一个分享的平台,真正哪些数据对你是有用的,这个是一个瓶颈,第三个这个是来自我CEO那个层面,我们有这样的图表、数据在后面做分析,真正能呈现在前面成为可视化的图,这个可视化我觉得是一个问题,刚刚我说的那个例子,就是网络带宽在整个做了一个大数据的研究,我们就呈现出来是一个能够看得懂的图,在座可能IT的人都看得懂,不见得非IT的人能看懂,所以第三个可视化我觉得是一个瓶颈,也是现在需要发展的地方。
孙泠:李总告诉大家一下?
李大学:我写了三个词,第一个重视程度,因为数据它有价值,但是你不珍惜它,你不认为它是一个宝贝,那其实就是重视度不够,我们可能互联网行业,因为它基本靠技术去驱动的,但是我们很多传统的产业,我们CIO地位是不高的,对技术的重视程度是不够的,对数据的重视程度更不够了,所以重视程度是关键。第三个就是驱动,讲利用,如果你还是拍脑袋的管理方法这种决策的方法,而不是技术驱动,数据驱动这样的管理模式的话,实际上这个大数据你是用不好的,我可以说两个例子,一个例子就是我们的网页,大家可能去看的时候你会觉得很简单,但是每一个网页它是由很多块去组成的,对每一个块都是有不同的策略,不同的策略产出是不同的,它的转化率,我们用转化率衡量,所以任何一个企业可以用不同的点测试各种的策略,选择最优的策略,这个完全由数据去驱动我们网页的界面,这是一个场景,另一个场景就是像京东每个月都有一个管理层的经营分析会议,它会分析大量的数据,其实刚刚谈到可视化,可视化可能对一些报表,一些统计是比较恰当的,但实际上我们要做精细化管理的时候,我们往往要做专题的分析,这些分析可能管理者有一个想法,我们由数据去验证,我们又通过创新去改变我们的做法,最后去更新这种结果,通过这种来提高我们精细化生产的水平。
孙泠:在滕总展示题板前我给大家说一下,腾总最开始写下了人才、创新,最后等了七秒写下了最后一个你给大家说是什么?
滕崧:重视,一定要重视,重视不够是不行的,我之所以写人才创新,我们现在用了很多分布式等等的存储方式,其实这方面的人才从我们现在看,在国内相对来说是比较少,或者比较缺乏,而另一方面从创新来说,其实很多都是美国技术,很少有原创,国内现在很多的提法所谓的微创新,我觉得这是非常好的提法,但是真正大的发展我们需要非常结构性的重大的创新。
孙泠:滕总刚刚说微创新可能会给我们国家的创新带来希望,我们最后一道题,就是请大家写下您认为未来企业在大数据运营方面取得什么突破,写一到三个关键词。滕总写的最快,应用这个太了大,您解释一下,到底是行业应用还是什么应用呢?
滕崧:像我刚刚写到的,你采集那么多的数据,如果不被重视,不能为决策起到作用的话,它什么也不是,它一定被应用起来才真的能起到作用。
孙泠:李总您写的是开源、节流、提升。
李大学:开源节流可以从两个方面来分析,像我们一个企业是两件事,一件事你怎么降低你顾客的获取成本,他有很多的渠道,他不断的衡量,选择那些对他好的渠道,所以你会发现这方面他是靠数据分析来推动,其实这是一种开源,另一个就是怎么最大化骨科的价值,骨科来了,你把它包包的钱掏出来,然后来分析他是属于哪一类的,把其他用户的行为做类比,然后优化他的转化率,我们有一个对比,用了这种个性化推荐的技术,和没有用这样的推荐技术,他们销售额会差30%到40%,所以这就是很典型的一个开源的例子,我刚刚说的精细化管理,通过数据分析来提高效率,这就是很典型的节流,降低成本,还有刚刚说的提升,其实我们在这个过程中,我们可以通过数据驱动的方式来提升我们的管理,来提升我们利用数据的水平,像今天讲到的复盘,它是一个循环的过程。
孙泠:李总对大数据是不是谎言还有存疑,但是利用大数据从顾客兜里掏更多的钱这个是没有存疑的。冯总您呢?
冯中茜:投入、应用和量化,我觉得是先有鸡还是先有蛋的问题,没有投入就没有产出,当然应用了以后才能应用以后,比如说我们现在谈了很多,实际上云计算就是大数据的一种商业模式,应用了以后,怎么带给企业有什么好处或者是益处,或者带给他有什么销售上的提高,这是我们在座IT人士考量的东西,要不然我们每次都说要钱,怎么好,怎么分析,分析完了以后有什么,比如说包括用户行为模式分析,分析完了以后两化出来,对您这个用户增长有什么影响力,这是要考虑的问题,所以大数据我觉得是云计算的一个核心,或者是一个灵魂吧。
孙泠:沈总您的答案是?
沈立涛:是数据外包方面有所突破,为什么我说突破,我们现在很多公司在做类似于应用方面的工作,如果让一个企业马上拿一个团队来做数据分析,它的没有一个外力的执行是很困难的,我相信在这个领域里面,中国在下一阶段一定会有所突破的,而且我相信中国人的智慧,对于这种数学,对这种数据的理解程度,我相信这个工作会做得非常棒,这也是我一个非常美好的期待,我们希望看到更多更好的数据外包的公司,在中国尽早的出现,谢谢。
孙泠:陈主任您的答案给大家展示一下?
陈金雄:第一个重点关注,一个深入挖掘,第三个规范数据,我是第一个发言,最后总结陈辞,因为我们数据是为了用,从怎么用好这个数据,大数据我谈点观点,一个是重点关注,微博,现在新浪微博已经3、4亿的量,每天发布、转发、回复可能有几十亿的量,通过人的关注,主题的关注,就可以。上午我跟孙编辑说,我说我们一定要办新闻的理念,要办报的理念来关注数据,新闻那么多,也是海量的数据,报纸的头版头条是什么东西?一定是读者最关注的。关注这个数据不是说其他的数据不看,通过关注一个最大的亮点,我们有关键的指标,通过一个最关注的信息,然后通过深入的挖掘找到它,你看微博有关注,他有搜索,通过深入的挖掘可以找到你需要的数据,第三个数据一定要规范,所以规范化的数据是基础,所以我们讲婚姻,中国的婚姻是什么?已婚、未婚,你看我们国际化上的区分,有婚前同居,有疑婚、已婚,有离婚,还有离婚后再同居,他这个对婚姻的状况,你私生活的状况,对你的疾病也好,对你生活的状况也好,对你生理心理的影响都有一个变化,所以结构化、标准化、规范化,而且规范化一定要有主题的规范化,我在医院,所以我提出医院一定要以病人为中心,以临床为中心,以医者为中心,病人来看病,看病是以临床为中心,我们药怎么用?怎么做检查,怎么做手术,所有这些都要围绕病人这一条主线,我就简单发表这个观点。
孙泠:今天谢谢各位嘉宾的观点的碰撞,让我们得出了大数据不一定是谎言的结论,好,谢谢!请大家就坐。