2015年Hadoop大数据技术有望在多行业全面开花

引言:现在越来越多的公共突发事件当中,尤其是像人为的突发事件,比如说最近像上海的踩踏事件,互联网也好,大数据也好,能不能发挥一些正能量的作用?防止这种悲剧的再度重演呢?本期IT名人堂的访谈嘉宾是星环科技的联合创始人孙元浩先生,我们在2015中国Hadoop技术峰会上对他进行了独家访谈。

孙元浩认为,完全可以用一些新的技术手段来检测外滩人流的变化,为公安部门和交通部门提供一些信息指导,比如摄像数据充当数据源来做一些提前的预警。通过地铁刷卡数据、和轨道交通数据来判断人流量,发现地铁数据的异常,公安部门可以直接和交通部门协调,从而疏散人流。其次,我们还可以结合数据源运营商基站的信号对数据进行分析,它们包含了用户手机的大致位置,我们能够迅速的判断出人群密度以及变化趋势。随着手机的移动,根据基站里手机的移动方向可以预测密度的范围,这些信息综合起来可以形成从轨道地下、地面到空中的全方位检测,这些信息可以迅速反馈给公安,为治安提供导向性的方案。此外,还有一个车流信息数据的采集也是非常重要的,机动车辆经过外滩、乃至全市交通,都会留下一条记录,我们可以迅速判断哪些机动车没有离开,逗留了,从而推断出这里的车辆可能发生了挤压状况。在这种情况下,我们可以立刻反馈给交通部门,所有的营运车辆不允许经过外滩,这种方式也能缓解交通情况,所以综合这些措施也是能够做到预防的。

皮皮:在大数据的时代里,数据是一个让企业很纠结的话题,很多人会认为数据是死的,人是活的,数据挖掘的世界既是一个地雷阵,同时又是金矿,那大数据到底能给我们带来什么呢?如何在海量的数据里挖掘出有价值的数据为己所用呢?

在采访中,孙总为我们概括了大数据的三种典型应用场景,其用武之地小到个人、家庭,大到国家,大数据可谓是无所不能。今天Hadoop主要应用场景集中在技术处理上,但是已经有一部分的应用开始偏向机器学习。星环科技与合作伙伴也开始尝鲜,利用Hadoop技术来处理数据的高级分析,从大数据中挖掘出有价值的数据。

第一个典型的应用场景是利用大数据来满足实时营销,比如实时采集用户手机的位置信息,推送WI-FI的热点,根据用户的购物历史,刷卡记录来做数据分析,推送个性化的营销,比如电影票或感兴趣的商品等。

第二个典型的应用场景是利用大数据来预测用电量,孙总为我们介绍了一个从事用电数据分析的真实客户案例。有些省份已经布置了很多智能电表,多达几千万户家庭,电表采集密度每天高达23次,通过电网传感器的数据可以分析用电量与气候之间的关系,能够帮助电力公司来初步的预测未来的电力需求量,同时也能挖掘出企业用电和GDP增长之间的关系。

第三个典型的应用场景是大数据应用在医疗领域,有些企业应用大数据的分析对DNA进行比对。过去对高龄产妇进行检查,手术存在风险。现在采用大数据的新技术,通过采集胎儿的DNA序列进行比对,一旦发现胎儿的异常症状,就可以采取措施,这种方法与手术相比,更加准确,也无风险的,这种新的技术随着大数据应用越来越广泛。

皮皮:60%的Hadoop应用是用在SQL统计领域,最早的Hadoop是用于ETL,包括从数据的萃取到转制到最后的加载,而现在我们发现像FACEBOOK的数据仓库也用到了Hadoop 的数据仓库,那么Hadoop与数据仓库究竟有什么样的关系呢?

孙总坦言,互联网公司从第一天开始就是用Hadoop做数据仓库,所以Hadoop是互联网公司建数据的第一选择,实际上Hadoop是互联网公司的数据仓库。而对传统企业来讲,IT架构也发生了比较大的变化,比如在运营商、银行、物流、飞机等其它行业,Hadoop作为一个数据仓库的补充,但是把Hadoop运用到这些企业当中的时候存在一个显著的问题,传统的IT架构,在上面已经有大的应用了,这些应用很多是基于SQL的,应用类型与复杂程度其实是超过了互联网公司,所以hadoop在进入了这个领域的时候,有些局限,早期只是做ETL。而随着hadoop技术的发展,像国外的一些公司包括我们公司都能提供比较完整的SQL支持,这样使得我们能够更进一步用hadoop来替代企业的某些数据仓库。

传统的数据仓库像一些大的企业国有银行,动不动就是几个亿,维护扩建也是几个亿的,成本经费非常昂贵,而Hadoop提供了性价比非常高的方案,这是企业在选择的时候的一个考虑的重要因素。