专访链家蔡白银:大数据如何解决房产领域痛点推动行业进步

  InfoQ:如何避免虚假房源?安全上有哪些措施保障?

  蔡白银: 虚假房源中影响最大的就是那些价格虚假的房源,这个时候,大家可以使用下我们掌上链家的估价功能,预估下这个房子当前的价格到底如何,从而有个明确的认知。

  和虚假房源对应的就是真实房源,所以这个问题也可以翻译成链家在保障房源真实性上做了哪些保障。 那么,如何定义“真房源”?侠义上来说,“真房源”的4个标准:

  房源“真实存在”,不是虚构或虚拟房源;

  “真实价格”,在各渠道发布房源价格以业主委托报价为基准;

  “真实在售”,房源的在租在售状态均反映业主真实意愿;

  “真实图片”,房源图片与真实房屋一对一匹配

  基于此, 链家在真房源的保障上,做了如下几件事:

  从技术和数据上来说:链家首先建立了一个楼盘字典。这个字典里包含有30多个城市,近7000万套房屋的关键信息,除此之外还采集了小区物业费、采暖设施和配套设施等大家公认的信息

  管理范围上,实现了房源的全生命周期管理,实现了房源的新增录入、库存、核销的全链条管理。

  从机制上说,品控检查,内部经纪人监督检举以及消费者监督。链家承诺假一赔百。

  三管齐下,保证了房源的真实性。

  InfoQ:针对不同地域、不同房型、政策等,如何自动制定一个买方和卖方都认可的价格?

  蔡白银: 分别回答如下:

  地域的考虑是这样的:我们的估价是分城市做的,在同一个城市内,每个商圈有自己的单独的模型,同时我们正在做不同地铁线路沿线的估价模型,也考虑针对准确率偏低的商圈交界处单独做模型。

  至于房型,极端的例子是同一个商圈里既有别墅,又有普通户型。由于链家的楼盘字典里,将房屋类型都做了明确的标记,因此基于我们的历史成交数据有丰富的房源类型和成交价格之间的关系。建模时,我们的样本里将房源类别特征做了离散化,因此模型能够很好的判断出房型对价格的影响

  至于政策,政策的影响对价格的影响是很大的,未来会有什么样的政策出台以及会带来多少影响,也不能尽知。政策的影响也不太容易做特征化。 因此,我们在估价模型的训练样本的选择上,我们只选择了近半年的成交房源,同时样本特征里加入时间因子,把政策的影响放在时间因子中,让非线性模型自己去学习政策对价格带来的持续性影响。

  InfoQ:能讲一下链家大数据架构是怎么样的吗?

  蔡白银: 链家的大数据架构目前如下图所示:从下往上依次是数据采集层、存储计算层、DW层、分析计算层和应用挖掘层。

  数据采集层包括了线下和线上两个层面。基于link系统的上线,现在很多的线下数据也已经实现了线上采集,所以数据的实时性变得越来越得到了保障;日志流使用kafka进行实时采集,经过Flume后存储至存储层;

  存储计算层我们采用的是业界一直使用的HDFS和Hadoop体系。

  DW层则是对原有的表进行业务层面的聚合,使得产生的数据表结构更清晰,更容易被使用;

  在应用挖掘层,为了实时的update用户画像以及房源推荐,我们还引入了spark streaming 和 Elastic search,关于这点,可以参见之前在大数据杂谈上的分享。贯穿始终的是认证权限安全系统和调度系统。

物联网

  目前大数据的整体架构在做一次大的重新调整,以适应数据规模和业务需求的迅速扩大。调整后的框架如下图所示:

物联网

  调整后的大数据架构分三层,上层展示层,包括BI与数据API;中层工具链,含adhoc、olap、调度系统;底层集群,关注数据安全与集群调度。纵向有元数据、指标管理,权限控制等。

  InfoQ:房地产数据挖掘会用到哪些算法?

  蔡白银: 房产领域的数据挖掘用到的算法和平常大家用到的算法并不会有什么类别的不同,只是数据挖掘本身需要和业务紧密关联,所以这些算法在房产领域的使用细节上会有不同。