5月23日,2017UBDC全域大数据峰会在北京举办,大会以"DI的力量"为主题,全景展现数据驱动下的新经济、新模式,邀请全球知名企业家分享数据应用实践案例。在主旨演讲中,【友盟+】首席数据官李丹枫提出,数据如同AI的血液,是AI由弱走向强的关键点。
【友盟+】CDO 李丹枫
数据驱动人工智能
李丹枫表示,数据驱动人工智能,这里面包括最重要的两个词,一个是数据、一个是智能。
据了解,工业界40多年前开始使用模型,其中包含着参数(M),用一堆数据去训练模型。但训练模型没有想象中那么简单,模型推算出的数据总是会出现偏差的,跟实际的差一点点。要衡量模型中的偏差,就要运用模型使用技巧:首先是定义损失函数,用最小的方差,在场景里头加权重。其次是设置惩罚函数,模型包含的参数有限。模型越多,训练的效果越好,样本参数加起来上千万或者上百万集中相加,设置损失函数、惩罚函数后,可以从算法的维度里找到最佳参数。
李丹枫表示,模型训练的工作原理是输入节点(模型的X),把连线权重参数找出来,输入、输出数据都有了,用训练的方法,让模型根据定义的损失函数达到最优。实际上,要搜索的权重的组合非常多,需要运用的有效的方法找到参数,模型本身是一个计算与记忆的机制。
当前人工智能还很“弱”
谭铁牛院士曾说过,“现在的人工智能是有智能没有智慧、有智商没有情商,会计算不会算计,有通才无专才”。李丹枫对此深表认同:“现阶段的人工智只是弱人工智能。”所谓弱人工智能,就是需要完整的信息、完整的定义好的输入和输出,需要借助非常强的计算与记忆的能力。“跟弱人工智能对应的是强人工智能,在信息不对称的情况下,考验的是问题的推理和解决能力,这是做人工智能追求的极致的方向。”李丹枫说。
数据提供竞争壁垒
竞争的战场是公平的,建模能力和计算能力是数据科学家的必备技能。现阶段计算和存储越来越便宜,没有什么太高的门槛。李丹枫表示,数据是驱动人工智能的重要因素,也是竞争的壁垒。大家要重视数据,因为有了数据,才能做更多的事情。
李丹枫认为,大数据企业只有获取大规模数据,再加上扎实的技术力量,搜集数据进行分析,打通各个业务线,全面了解客户,才能在新一轮的技术革命中保证自身的核心竞争力。例如,谷歌有7个10亿用户俱乐部,客户资源有10亿人,其产品包括谷歌的搜索、Gmail、地图、U2、安卓、Google play,谷歌因数据的支撑可以做好的搜索和广告。淘宝有4亿多深度用户,淘宝依据数据做推送,能够做到千人千面,提供个性化消费体验;今日头条用户规模大,用户平均使用时长76分钟,使用深度非常深入,今日头条可以做到非常好的内容智能分发。