每个人都需要住房,房地产行业历史悠久,数据积累下来是非常可观的。链家成立了15年,这15年里积累了百万级别的成交数据,用户画像数量超过2000万,日志数据6T。链家依托房地产行业累积的海量数据,从中挖掘出最有价值的数据,进行房屋估价、房源推荐等等,从而改善行业体验,推动行业进步。
受访嘉宾介绍
受访嘉宾介绍:蔡白银 ,毕业于北京大学。目前任 链家网大数据架构师 ,负责链家网大数据体系的建设,运用大数据挖掘技术助力房产领域的O2O,提升房屋买卖体验;在大数据数据挖掘领域有多年的经验。加入链家网之前就职于百度,负责百度口碑后端策略架构,使得口碑的污染率低于2%,有效的保证了内容的准确性和公正性。
InfoQ:请问您能给InfoQ的读者们介绍下您的背景经历吗?百度口碑如何利用大数据?和链家的业务有类似的地方吗?为什么选择了链家?
蔡白银: 我毕业于北京大学物理学院, 原来学的是理论物理的分支——宇宙学。 毕业之后先在nvidia做了一年多基于cuda的高性能计算,然后加入到百度,从事算法策略, 如今在链家网从事大数据相关工作。 这项工作,本身对于数学的要求略高,这一点理论物理的数学训练还是颇有帮助的。
在百度时作为百度口碑的策略负责人,带领7个小伙伴搭建了百度口碑的策略体系。百度口碑是个ugc产品,用户可以在口碑中点评自己所知晓或者接触过的商家,我们需要使用百度的海量用户行为数据来让用户快速触达评论实体 ,然后通过算法对评论内容进行排序和反作弊。
从业务上来说,口碑和链家的业务没有很相似的地方。
至于为何选择链家。之前一直在纯互联网行业工作,对于传统行业和互联网密切联系的垂直领域O2O一直很感兴趣,同时也知道自己的几个非常优秀的同事加入了链家, 仔细了解了链家的规划和愿景后,就毫不犹豫的加入链家了。目前很庆幸自己当初的选择,深感当前的平台宽广而深远,工作内容能够带来助力行业进步的成就感,也充满挑战性。加之周围同事都很优秀,『每个人都像一支队伍』,这种感觉我很喜欢。
InfoQ:链家的数据源如何获取的?如何保证数据的实时性?
蔡白银: 链家的数据来源于线下和线上两个渠道。线下渠道包括经纪人录入的数据,例如用户的带看行为,带看反馈等等,还不得不说的是链家网的6000万楼盘字典数据, 是我们的工作人员一栋一栋梳理出来的第一手的房屋数据, 十分珍贵。
线上数据包括在掌上链家app,链家网web端和链家网m站的各种行为数据,以及经纪人在link作业app上的行为数据等。
线下渠道的数据,在link上线前,经纪人是每天晚上必须要将今天自己涉及到的全部用户的线下行为数据录入进SE体系; link上线后, 这些行为数据也已经全部线上化,实时性进一步得到了保证。 至于用户的线上行为,通过日志流,这些数据实时的进入大数据仓库,实时性自是有保障的。
InfoQ:如果靠爬虫爬取链家网上的数据,这些数据是否可有效利用?有什么反爬措施没?
蔡白银: 链家网的数据都是真实的房源数据、成交数据和挂牌数据,所以这些数据都是可以拿来做分析使用的。 链家集团和其他地产公司的一些对数据比较敏感的经纪人,会持续收集链家的数据,形成自己的分析知识体系。
目前链家网做了一些简单的反爬措施,例如针对ip的访问频次限制。整个反爬系统正在建立中。
InfoQ:大数据能帮助链家解决哪些房地产方面的痛点?
蔡白银: 上次在Qcon2016北京全球软件开发者大会的分享中有提到,房地产行业自古而今,一直存在的痛点可以总结为:
房源真假如何判断
用户如何找到合适自己的房源,用合适的价格,从而高效率的成交
对于卖房者同样如此
经纪人如何才能更好的了解客户的真实需求,从而提升服务体验。
这几个问题的解决都仰赖于大数据。 楼盘字典的7000万数据解决了房源真假的问题;基于大数据的房屋估价可以供用户和卖家定出合适的价格;房源和小区推荐,让用户快速触达适合自己的房屋;基于用户画像的房客图谱和客源解读,让经纪人的服务能力得到更好的体现,让用户感知到越来越好的服务体验。总结一句话就是:技术推动行业进步,让买卖房屋不再难。