这两者观点都是ok的,但是在一个项目的生命周期中,数据在不同的阶段有着不同的作用。
我们确定了决策过程的四个阶段中,数据会在其中有什么影响:
首先了解问题的背景,建立一个完整的计划简介。这更多是一个探索性的过程。
简要理解计划,包括区分主次以及假设我们可以达到的结果。预测分析在这个阶段更为重要,当我们做出一个决定,是基于我们希望可以产生最大的影响。
计划进行中时,我们要做一个控制实验。A/B 测试是最常用的,但我们的业务在各方面的合作可以让我们有更多的实验机会,以市场为基础的测试以及传统的网络环境的测试。
最后我们测量实验的结果,确定结果的影响。如果成功,我们就从社区中推广出去,如果不成功我们就回到最初来重复这个过程。
有时候这个过程是简单的,但是更多时候我们需要挨个步骤来论证,确保这个决策对Airbnb的每一个用户都是有效的。最终我们将用这种方式来解决用户的需求。
民主化的数据科学
当一个数据科学家可以有足够精力和他人沟通时,可以产生一个良好的循环,但现实是一个公司的规模和速度将超过数据团队的成长速度。这在2011年尤为明显,因为Airbnb开始快速发展,年初我们还是一个在旧金山的小公司,我们三个数据科学家就可以有效地和大家合作,但是6个月之后我们开了10多个国际办事处,同时扩大了产品、营销和客户支持团队。
突然我们和每一位员工直接沟通的能力就消失了。正如它无法满足社区的每一个新成员,它是现在也不可能满足与每一位员工的工作,我们需要找到一种方式民主化工作扩大我们同其他同事甚至是整个社区的联系。
这里有一些的例子,我们是如何走近每一层的规模:
1、个人互动:这对于数据科学家快速的行动非常有效。在数据基础设施上的投资是重要的,这可以保证有更快更可靠的技术来传输数据。
2、授权团队:把报告和基本数据探索从数据科学家的工作中剥离开,让他们可以集中于更有效的工作,例如利用仪表板等工具。我们还开发了一个强大的和直观的数据仓库工具,来帮助人们查询作者。
3、除了个人的团队,我们更多思考数据文化在公司整体中的作用:我们告诉员工我们是如何思考Airbnb的生态系统,如何使用工具,(如Airpal),消除数据的壁垒,激发他们的好奇心,告诉他们每个人如何可以更好地利用数据。类似的行为有助于改变他们把统计当做是临时请求的思想,可以解放我们。
4、扩展数据团队:扩展数据科学团队并不容易,但这是可能的。特别是如果每个人都认为这不仅仅是必须的,而是一个公司的重要组成部分。
五年来,我们已经学到了很多东西。改善了如何利用我们收集的数据,如何与决策者互动,以及我们如何在公司进行民主化。但到什么程度了这些工作才算是成功的呢?
测量一个数据科学团队的影响是困难的,但一个信号是,现在大家一致认为数据需要由技术和非技术人员一起决定。我们的团队成员在决策过程中被视为合作伙伴,而不仅仅是统计采集。
另一个原因是,我们越来越有能力提炼我们工作的因果影响。这一直是比较棘手的,因为发现生活中的生态系统是复杂的,有多种因素的影响,例如网络效应,季节性强,交易频繁,但这些挑战,使工作更加精彩。在过去的几年中,我觉得我们仍然只是皮毛,还有巨大的潜力。
我们正处在一个爆发点,我们的基础设施稳定,工具有效,而且数据仓库干净可靠,我们已经准备好去解决那些令人兴奋的新问题。目前我们期待着从批量实时处理,到开发一种更强大的异常检测系统,加深我们对网络效应的理解,并提高我们个性化的匹配。
但是,这些想法仅仅是个开始。数据是客户对我们的期望和声音,而无论我们以后做什么,都将由这些声音驱动。