一个故事:在信用卡起步阶段,银行从业人员凭经验认为警察信用是最高的,教师次之,商人最差。但当银行对他们消费和还款数据的积累日渐丰富,分析结果出乎人的意料之外。
最初的结论几乎被完全推翻:警察的信用最差,教师还款最及时,但消费偏向理性很少透支,而商人信用居中,却对银行的利润贡献率最高。谁是最优质的信用卡客户的答案呼之欲出。
当然这只是个段子,权当玩笑。如今仅凭职业这种单一维度做判断的方式,在银行从业人员看来极其不可信。为了更好对症下药,他们需要得到你更多的信息。
在这点上,互联网公司神通广大。只要你一上网,你的浏览记录、外出行踪、跳转轨迹、好友关系、购买记录、支付情况……就会被密密麻麻的数据记录下来,在网上,谁也不知道对面坐着的是人还是一条狗,而未知的你,没有遮羞布。
似乎有点危言耸听。其实在你成为他们用户的那一天起,不管你是不是仔细看了那个又长又晦涩的隐私政策,你点击“下一步”之后,他们就心安理地获得使用你这些数据的授权,而保密原则也一并在法律的限定范围之内。在此之后,你不发现你使用互联网已经越来越方便了吗?甚至方便得有些神奇。
你会发现微博已经越来越了解你了,它给你推荐的人越来越靠近你线下的圈子;电子商务网站也越来越懂你了,你不必再发愁怎么找到心仪的那件商品,甚至你会发现有些推荐商品比你原本想买的更适合你;你刚刚在优酷看到的一个不错的影片推荐,在下一个站点,或许你将受到推送这张碟片的促销信息……
幕后黑手“神秘组合”
谁是幕后的黑手?在你看来垃圾的信息,有人将其视为珍宝,处理、分析、整合,垃圾信息变废为宝,产生价值,或二次出售或留待自用。这,就是数据挖掘与分析;这,几乎是每个互联网公司自诞生之日起就必须做的一件事情。
一般来说,单个的信息(排除VIP式的专属服务)是没有任何意义的,只要经过整合、经过特殊的算法匹配才能得出对你而言最接近需求的服务,而精准是你为它买单的最大推动力。
这里牵涉两个层面的问题。一个是对你贡献的数据的收集、挖掘和分析;另一个则是,有了关于你作为“你”的总体特征之后,能用这些“知识”去做什么而快速地赚到钱呢?这,是数据工程师们守口如瓶的“秘密”。
万能的数据还不存在
数据,绝不是万能的。比如,某个新闻门户根据你的历史点击,分析你浏览的页面、停留的时间,预估你可能的兴趣与爱好。不过,这并不具有可持续性,活生生的人,总是灵动的变化着,如果网站对你针对性的发布,可能你今天很欣喜明天就比耐烦的把鼠标移动到右上角上点了叉。
所以,后台那些整日琢磨怎么从你行为轨迹上挖掘你需求的工程师们,要绞尽脑汁调整假设、修正算法。数据大牛们只要看看一个互联网公司收集数据的基础表格都可以大体知道这家公司的数据沉淀及数据应用水平了。
当然了,他们即便有再强大的算法,还要有劳您继续日复一日地去浏览网页、去交友通信、去签到、去下单买东西啦!他们巴不得网络就是你的全部。