如今,地理大数据产业在中国方兴未艾。通过地理大数据为企业提供决策服务的GeoHey,是其中的代表。如何寻找并发掘地理大数据的价值。我们请来GeoHey的数据总监高楠,分享了他对地理大数据这座金矿的“掘金秘籍”。
如何获取“无处不在”的地理大数据?
我们先来说说如何获取和清洗地理大数据。
作为一个互联网用户,你是否会留意到不少手机应用在启动时会向你发出获得个人位置定位的请求?比如,你在马路上打开喜马拉雅的FM广播听个相声,边走边听的时候你的位置数据便被不断采集起来,这些被采集的位置数据,便是地理数据,也是值得挖掘的对象。另外,现实中的地理单位,比如一条马路,一栋房屋,它们也是一个个地理数据,可以被采集。
当我们把这些搜集起来的数据赋予维度并交叉应用时,便产生了它的应用价值。
既然位置数据来源于互联网,那么我们就去互联网上爬。
我们将这个过程设定为四个步骤:首先是开发爬虫,我们会开发挖掘数据的爬虫程序,这是我们的核心工具;在爬虫程序设定之后,我们便设定策略,确定要抓取哪一方面的数据,这也是我们的关键环节;在策略设定好之后,我们便设定生产排程,说通俗点就是排好工期;最后获得到我们想要的数据。
正如淘金需要过滤泥沙一样,我们获取到的数据其实有很多“废渣”,会影响整体价值。清洗数据和获取数据也是同样重要。按照上述这套流程下来,我们的系统不仅可以获得数据,还可以清洗数据。
要做到数据去重和清洗,首先要保证数据的获取量足够大。此外,还对数据来源进行评估,保证数据来源的“干净”。
我们是一个仅16人的团队,所以处理数据更多是依靠机器而非人力完成。我们要赋予机器学习能力,即借助计算机强大的计算能力去发现更多的数据信息。
依靠机器,使我们保持了较高的工作效率。所需的数据最快半小时,最多1天就能将全部爬完。而这些数据清洗的工作也仅依靠3、4个人便能完成。
除了提高效率,机器学习还具备三个功能:
数据补全:从网上爬下来的数据很多质量不高,而数据补全功能就是在当数据不完整时,可以根据已有的数据去推测估算缺失的数据;
新数据:在缺少某种数据时,可以从已有的数据提取生产出新数据。就像通过影像数据可以提取建筑数据;
数据生长:从现有的数据中,可以提取出某些数据内在的规律,根据规律生产新数据。凭借完整的流程设置和机器学习,目前我们获得数据量是非常可观的,仅以位置数据为例,目前GeoHey的位置数据总量将近8亿,位置数据年平均增量达到了58%。同时,我们还对数据实行周期更新,更新频率从小时到每季度不等。
当数据被掌握了之后,我们可以用它做哪些事情呢?这就是一个发掘地理大数据价值的过程,我想通过三个案例来介绍。
1. 用大数据来展现,哪家运营商的4G信号好?
如何用地理大数据判断哪里的4G信号哪家强?作为非专业人士,面对这个问题很难回答。不过,我们通过挖掘地理数据,能够给出答案。
首先,万事开头找数据。
那么这些数据从哪里挖掘呢?我们都知道,作为通讯运营商,信号离不开通信基站的支持,每个通信基站上都有一个传感器,传输的信号数据便可以被我们获取,来判断移动、电信和联通三家运营商的4G信号差异。
对此,我们采集了7500万通信基站的数据。(DT君注:在现场,高楠还演示了上图右边的这些数据采集后的三维可视化效果。)
在不同区域不同运营商的4G信号强度是不同的。比如,电信的数据应用最普遍且信号强度最高,而在北方尤其是东北地区,联通则更加强势,信号也要明显电信和移动两家运营商。
除了判别不同地区4G信号的差异,我们还能看到不同运营商的信号覆盖密集程度。以西南地区的贵州省为例,在当地除了移动一家独大之外,信号的密集程度也明显要低于中东部地区。从侧面来看,这也说明贵州省的基站分布不均,对于各大运营商而言,依旧存在竞争的可能。