还有一些大数据的挖掘价值,这部分价值我不会谈的太多,因为这部分价值我觉得我们作为一个互联网公司来说没有太多的发言权,比如说我们对这部分数据利用的还不够充分,因为这些数据比如说政府和研究机构以及学校对于这些数据怎么用应该比我们了解更多,我们只是在数据里面挖出冰山一角,我们把数据发布出来,比如我们看春运的时候哪些城市更多人迁入和哪些城市更多人迁出,以及我们怎么选择路线,以及某些节日,比如情人节时我们做什么流量推广。
我现在说的更偏技术性的东西,就是我们智能交通计算平台,这可以认为是百度地图大脑。智能交通服务都有哪些?比如说我们可以看到的,截至到2014年底国家汽车保有量1.4亿,国家2014年可以完全进入了汽车社会,在2013年到2015年由于移动互联网发展,我们也进入了移动互联网社会,我们有了移动互联网更大的数据采集和更大的数据量,我们可以看到更大的数据,比如说上海用户平均每次拥堵是15分钟,平均他们速度22千里每小时,这个速度大家可以认为是非常非常拥堵的,我们要做的智慧交通就是通过我们的智慧交通提供服务提高智慧效率。我们通过车辆调度、商圈选择以及城市规划,包括社会效率。我们整个平台从上到下分为四个部分,第一个是应用,基于我们这些数据做一些具体应用,第二个是数据挖掘,第三个是数据分析,第四个是定位,刚刚说精准定位是非常高,1多3米左右。数据我们跟合作方和政府合作数据,这些数据比如说出租车数据高质量,但是它覆盖率存在不足,我们还有地图导航数据,这些数据非常大,但是非常差,那我们就要做数据清晰,比如地图匹配,轨迹分类,拓扑构建,我们把高质量的引进来,把轨迹量不足的地方把它做泛化,把数据做补充。我们利用实时路况,时间估计,实时公交,包括新路发现,因为有了新路发现,我们才把地图流程提升到天级或者是小时级别。
地图匹配,我们不是运营商,所以我们拿到数据是运营商的点,他给我们就是这些点,那么我们需要就是把这些点还原成他所谓的轨迹,而且这些轨迹需要自造,而且有些点离的非常远,有些可能比如从汽车已经转换成步行,我们会把这些点通过建模转换成这样一个轨迹,我们对算法和模型有很多的要求,比如它具有很高的鲁棒性。当然这个用户定位点缺失比较大,这样保证我们的数据越来越的精确性。还有说K阶HM图,这条路是否通行,比如大家看到这个线,如果用户在西直门立交桥那个地方是要绕道的,因为那个地方有一个限制。
实时路况我们首先要做分钟更新,如果太慢就不会很准确,如果更新更快,比如这个地方红灯比较长,大家经常会觉得红灯会很堵,绿灯也会很畅通,对于产品我们不能把红灯绿灯去做,我们会融合评估整个红灯情况。第三个是全国覆盖,如果一个数据没有路况,其实用户对这个路况是不信任的。我们把这些还原成轨迹之后,就会变成这个样子,十分钟或者二十分钟之内这条路段上面所有轨迹的趋势图,通过趋势图,我们可以看到这个路段它是从畅通开始慢慢地速度下降变成拥堵,但是它并没有完全拥堵,加上我们计算和核算趋势,把实时路段发送拥堵,实践证明我们这个按趋势模型算法,准确率达到80%左右。
除此之外我们还会加入一些时空规则,举个简单例子,比如这个路段上面现在车辆很少,可能只有两辆车,有一辆车开的非常慢,我们轨迹就看车开的非常慢,轨迹量很少,这个时候我们说这个车拥堵是不对的,因为他可能刚开车开的非常慢,所以我们结合他上一个时间速度开的非常快,他慢速的可信度,通过实时模型和预测模型,整个路况率提升90%恩左右。
第三个比较难的就是时间估计,刚刚跟下面同学讨论了一下,时间估计这个非常难做,难做的原因大家能想到,比如去一个地方需要50分钟,我首先要拿到的数据就是以前的数据,我们不能用当前路况累加,当前在车行使过程中会变,所以当前路况不准。维度用哪个维度,比如今天下雨和明天下雨不一样,包括路面拥堵,今天拥堵和昨天拥堵通行时间也是不一样,所以如果我们用路段累加方式会陷入灾难。第二个这种数据越远的时候我们用累加方式,到后来累加的准确率可能就会越来越低,就会造成拥堵的情况。
大家可能6月份会看到我们推出全新的一款百基于百度图象识别和人脸识别类似的方式,给大家举一个例子,人脸识别如果你用特征会陷入一个问题,人五官是特征,五官有五个特征,五官的五个特征可以相互组合可以形成更多的特征,他的左脸和右脸有很多特征,她今天画眉毛明天不画眉毛,你识别就不会准,因为她的眉毛会变。地图LENING是什么方式?跟大家具体描述可能要一天一夜,简单来说就是把时间、路况都丢进去,计算出来一个抽象的特征,这个抽象特征最后降为三到五个特征,通过这三到五个特征再去训练模型,这样得到效果。包括这里面有大数据效果,基本上准确率可以达到70%,以前可能是50%恩左右。50%就是诟病的状态,因为它就是准和不准之间。