谷歌数据负责人:处理极大复杂数据的三类实际建议

几乎每一个大的数据分析通过过滤在不同阶段的数据开始。也许你只想考虑美国用户,或网络搜索,或结果点击的搜索。不管是什么情况,你必须:

承认并明确指定你在做什么样的过滤 计数在你的每一个步骤中有多少是被过滤

通常最好的方法来做后者实际上是计算所有你的指标,即使对你不包括的人口。然后你可以看看这些数据回答了像“查询中哪部分被我的过滤删除了?“的问题。

此外,寻找哪些被过滤了的例子对过滤步骤是必不可少的并且对您的分析是新颖的。当你制定一个简单数据排除规则的时候,很容易不小心包括了一些“好”的数据。

比率应该有明确的分子和分母

许多有趣的指标是潜在测量们的比值。不幸的是,你的比值是什么往往是模糊的。例如,如果说一个网站上搜索的结果的点击率,它是:

“点击网站的次数/那个网站结果的数量 “点击该网站的搜索结果页面的数量“/”网站显示的搜索页面数量

当你交流结果时,你必须清楚这一点。否则你的观众(和你!)将有与过去结果进行比较和正确解释一个指标的麻烦。

教育你的消费者

你经常会向那些不是数据专家的人展示你的分析和结果。你工作的一部分是教育他们如何解释和从你的数据中得出结论。这可以达到各种目的,从确保他们理解置信区间到为什么某些测量在你的定义域里是不可靠的,到什么样的典型影响大小是“好”和“坏”的变化,到了解样本偏差效应。

当你的数据具有较高的被曲解或选择性地列举的风险时这一点尤其重要。您负责提供上下文和一个完整的数据图片,而不仅仅是消费者要求的数字。

同时做怀疑者和拥护者

当你处理数据时,你必须做一个获得见解的拥护者以及一个怀疑论者。你会希望在你观察的数据中发现一些有趣现象。当你发现一个有趣现象,你应该问:“我能收集到什么其他数据显示这有多么了不起?”和“我能找到什么来使它无效?“。尤其是你为真的想要一个特定回答的某人做分析的情况下,(例如“我的特征是了不起的”)你要扮演怀疑者来避免犯错误。

与同行分享第一,外部消费者第二

一个熟练的同行评审可以比你数据的消费者提供更有质量不同的反馈和健全的检查,特别是因为消费者通常有一个他们想得到的结果。理想的情况下,你会有一个知道你正在寻找的数据的同行,但即使是一个有这样观察数据经验的同行,大体上是非常有价值的。以前的观点提出了一些方法来让自己做正确类型的健全检查和验证。但与同行分享是迫使自己做所有这些事情的最好方法之一。同行在多维分析是有用的。在初期你能找到你的同伴所知道的事情,得到建议测量什么东西,和过去有哪些在这方面的研究。临近结束时,同行很善于指出古怪、不一致,或者其他的困惑。

预期和接受无知和错误

我们能从数据中学到的东西有十分有限。NateSilver在信号和噪声中指出,只有承认我们对于确定的限制,我们才可以取得更好的预测。承认无知是一种力量,但它通常不会立即得到回报。在当时会感觉很糟糕,但最终你会赢得你有数据头脑的同事和领导人的尊重。当你犯了一个错误,并很晚发现(或太晚了!)会感觉更糟糕,但积极地承认你的错误将转化为信誉。信誉是任何数据科学家的关键社会价值。

最后的想法

没有什么缩减的建议列表可以是完整的,即使当我们突破了前10名列表格式的障碍(对没有计算的你们,这里有24个)。当你将这些想法应用于实际问题时,你会发现在你的领域中最重要的习惯和技术,帮助你快速而正确地做这些分析的工具,以及你放在这个列表上的建议。确保你分享你所学到的东西,所以我们都可以成为更好的数据科学家。