最近与相恋四年的女朋友间歇性吵架,作为心智不全的低龄表现,我赌气性地上了某婚恋网站。然而,当我真正点开网页,看到如无痛人流广告一般的页面设计(那种最烂俗的粉),以及满屏幕冲我傻笑的头像,脑中回荡一种声音:嘿,关了吧,这不是正经人待的地儿。
这当然不是婚恋网站的错,只是有悖我心中对“寻觅知己”的优雅想象。诚恳地说,我无心在海量异性资料中疲于搜索——尤其当这些资料大多为“吃货”“宅”“旅行”“读书”“电影”“有魄力”“开朗”……若你像我一样,认为恋人之间尽可能的彼此了解是同住一屋檐的基石,又不太相信“平凡是唯一答案”,那么当你看到这些廉价的标签,不免陷入某种绝望——从头了解一个人要耗费大量成本,而我对这个过程毫无兴趣。
于是,我一边觉得愧对女友,一边开始琢磨,未来专业的数据挖掘技术,能否把成本降到最低?
告别谎言
首先在我看来,若想维持一段长久的婚姻关系,贴标签本身是非常好的过滤器,我相信两个“中医粉”或者两个“反中医”在一起都能免去不少无谓的口水之争,某种意义上,价值观相近其实就是由一个个具体“标签”——或者说侵入大脑的一个个具体“模因”的“兼容”程度所体现。
但作为人类有史以来产生谎言最多的领域之一,你永远都要对寻偶过程中一个人的言行举止保持警惕:电视上的相亲节目是一种人格表演,而婚恋网站的自我展示和贴标签则更像另一种隐性表演:相信我,人性复杂幽暗,没人可以完全赤裸地真实描述自己。
譬如,一些网站也在用匹配程度牵桥搭线,如自称是“地球上最好的约会网站”OkCupid,注册用户要回答非常多的问题,且看似事无巨细,如“若你知道某人曾吸过毒,你还和他交往么”“看到陌生人随地乱扔垃圾你第一感觉是?”OkCupid试图通过用户的“自我暴露”来勾勒三观,进而找到匹配对象,而这需要大概半小时左右。
也许是我错了,但基于对人性的“悲观”和不确定性,我始终认为,你的过往比你的自我描述更加值得信赖,而随着“数字化生存”的日趋明显,某种程度上,你在网上留下的蛛丝马迹,让数据在判断“你到底是怎样的人”这件事上更具发言权。
那么,在未来,如何基于大数据找到你的伴侣?不妨想象一下。
多维搜索
毫无疑问,真正的大数据一定是跨平台的,这有赖于未来职业数据挖掘行业的崛起(起初也许处于灰色地带),他们如同侦探一样,可以搞到一个人的几乎所有数据,再卖给其他行业公司,如婚恋网站。
首先是基因信息。随着人体密码日趋告别神秘,如凯文凯利所言:个人DNA副本在今天十分昂贵,但不久后便不再如此,制药公司会付钱购买你的基因序列。数据公司自然也有办法,而以前诸多研究证明,两人成为夫妻,不仅因为投缘,相比陌生人,基因也更加匹配。基因信息自然会成为婚恋网站匹配度算法的重要依据(对于非丁克用户,基因信息则尤为关键)。
当然,基因只是一个维度,两人在一起还要三观相符,生活方式没有太多冲突,这在过往数据中也有迹可循,随便举些例子:
1,通过各大电商的购物记录,大体判断一个人的消费能力和习惯(挖掘银行信息比较过分),以及对某类商品的特殊偏好。
2,通过微博、微信等社交媒体的关注圈子和言论内容,以及固定频次浏览的网页,大体判断兴趣爱好和价值取向。
3,通过大众点评等生活信息及签到网站,大体判断饮食口味。
4,通过票务网站,大体判断是否有旅行习惯。
5,通过晚上12点之后的在线频率,大体判断作息时间。
6,通过豆瓣上的记录,可以全方位还原一个人的文娱和阅读偏好,这个很重要,事关三观。
7,通过上色情网站的频率,大体判断性欲,这个更重要(甚至通过在不同Categories上的停留时间,大体判断一个人偏好的体位和口味)。
…………
单子可以无限列下去,它几乎可以渗透任何角落——在大数据时代,你骗不了你的过往,你的过往在勾勒你的人格——至少比特世界的人格。基于这些多维数据,婚恋网站可以通过算法,为每一个用户做到真正意义上的精确推荐。