专访链家蔡白银:大数据如何解决房产领域痛点推动行业进步

  我们现如今已经使用的算法包括了 GBDT、随机森林、Hedonic、神经网络、卷积神经网络、逻辑回归、SVM、HMM、ItemCF、UserCF、聚类算法等。

  GBDT、随机森林、Hedonic、神经网络是我们在估价中使用的。卷积神经网络是我们在户型图识别中使用的, 逻辑回归、SVM则是在用户画像中判别同一用户、和判别用户是否是买家还是卖家使用。HMM是我们用来描述用户买卖行为阶段的算法。 聚类则是用在相似的楼盘识别,也用在了房源推荐和小区推荐当中。

  InfoQ:接下来,链家对大数据的利用,关注点会放在哪儿?有什么计划吗?

  蔡白银: 链家对大数据的使用依旧会集中在如何更好的服务用户,如何提高买卖体验上。

  我们会继续完善用户画像、房屋画像/楼盘画像、经纪人画像, 增加画像数据的更新频率、画像数据的丰富维度等。同时也会用更多更好的数据产品满足大家对于房产数据的更深层次的需求,例如估价的准确率的进一步提升, 估价对资产评估的数据支撑等, 或者帮助用户如何更好的找到合适的房子等等。

  InofQ:能介绍下链家大数据团队的情况吗?你们看重团队成员什么方面的背景?哪些数据科学技能?

  蔡白银: 链家的大数据团队有60多人,分为四个子方向,分别为基础数据建设方向、数据开发方向、数据分析方向和数据挖掘方向。 我们看重的是大家对数据的热情、对数据的敏感度和做事的靠谱度,以及对于数据价值的深度思考。

  技能上,希望数据开发能够有统计学知识, 掌握1-2种通用编程语言,布式计算知识(Hadoop,Spark等)、SQL语句,以及网络爬虫技能等。数据挖掘人员需要掌握数据开发相关的知识和技能,也需要有数据结构和算法知识,概率统计和线性代数等数学知识,数据可视化,还需要熟悉常用的机器学习算法,了解和使用过机器学习常用的库。数据分析人员要有业务数据抽象能力,需求分解能力,需要精通常用的excel技巧,知道数据埋点知识。

  InfoQ:如何成为一名数据科学家?您能根据您的经验给大家说说自己的看法吗?

  蔡白银: 这个问题好大。 回答起来颇有压力。 我只能根据我自己的理解给大家抛砖引玉了。数学科学是从数据中提取知识的研究,数学科学的从业者被称为数据科学家。数据科学家需要精通一门、两门、甚至是多门学科,同时使用数学,统计学和计算机科学的知识和技能来展开工作。『数据科学家一个人就像一支队伍』。要成为一名数据科学从业者,需要具备如下技能:

  (1) 计算机科学

  数据科学家大多要求具备计算机专业知识,要求具备编程能力。除了一般的脚本编程语言, 知道常用的数据库知识外, 最好具备处理大数据所必需的Hadoop、Mahout,spark等大规模并行处理技术与机器学习相关的技能。

  (2) 数学、统计学和数据挖掘

  数学统计学的知识能够让我们对数据更具有把控,同时也能更好的对数据的结果进行解释。当然工具的使用也是必不可少,例如SPSS、SAS等主流统计分析软件的技能,尤其推荐对R的学习。R包含了丰富的统计分析库,且具备将结果进行可视化的高品质图表生成功能,可以通过简单的命令来运行。

  个人建议最好也要会python。python学习起来简单方便,能够快速上手,且拥有丰富的统计学习包和机器学习的包和数据可视化的包,NumPy ,SciPy ,Scikit-learn,matplotlib, pandas等。

  (3) 数据可视化

  大数据时代,数据纷繁复杂,信息海量而多变。信息的质量和能否被接受很大程度上依赖于其表达方式。对数据中所包含的意义进行分析,开发Web页面,使用外部API将图表、地图、Dashboard等其他服务统一起来,从而使分析结果可视化,这是对于数据科学家来说十分重要的技能。

  (4) 精通业务

  数据是和具体的业务紧密相关的,没有业务场景的数据是价值寥寥的。所以数据从业者需要对业务知识尽可能深入掌握,从而做到数据取之于业务,也用于业务。

  (5) 贡献社区、多读论文和博客

 

  社区里卧虎藏龙,且大神们都乐于分享自己掌握的经验和知识,例如infoq里的很多文章中就饱含了独到的见解。另外,想要知道其它数据科学家在做些啥,目前领域内有哪些新的技术,新的想法这些都需要多关注论文和博客。