谷歌数据负责人:处理极大复杂数据的三类实际建议

测两遍,甚至更多

尤其是如果您想要捕捉一个新现象,试图用多种方式测量同样的底层数据。然后,检查这多个测量结果是否一致。通过使用多种测量,您可以鉴别测量或日志记录代码中的错误,底层数据的意外特征,或过滤出一些重要的步骤。如果您用这些测量方法测量不同的数据源,那将更好。

检查再现性

分割和一致性随着时间的推移是检查再现性的特定例子。如果一个现象是重要的和有意义的,你应该看到它穿过不同的用户群体和时间。但再现性意味着比这更好。如果您正在构建数据模型,则希望这些模型在基础数据中的小扰动上保持稳定。使用不同的时间范围或随机的子样本的数据将告诉你这个模型如何可靠/可重复。如果它是不可重复的,你可能没有捕捉到一些产生了这个数据基本的过程。

检查与过去测量的一致性

通常你会计算一个与过去被用来计数相似的指标。你应该比较你的指标和在过去报告中的指标,即使这些测量是在不同的用户群。例如,如果你正在测量特殊人群的搜索量,并且测量值比普遍接受的数字要大得多,那么你需要调查。你的数字可能是正确的,但现在你必须做更多的工作来验证这一点。你在测量同样的东西吗?是否有一个合理的理由相信这些人群是不同的?你不需要完全一致,但你应该在同一个变动范围。如果你不是,假设你是错误的,直到你可以充分说服自己。最令人惊讶的数据将变成一个错误,而不是一个极好的新的洞察。

新的指标应该首先适用于旧的数据/特征。

如果你收集了全新的数据,并尝试学习新的东西,你不会知道你是否回答正确。当你收集一种新型数据时,您应该首先将此数据应用到已知的特征或数据。例如,如果你有一个对用户满意度的新标准,你应该确保它告诉你帮助满意的最好特征。这样做对你后面学习新的东西提供了验证。

提出假设和寻找证据

通常情况下,一个复杂问题的探索性数据分析是迭代的。您将发现数据的异常、趋势或其他特征。很自然地,你会提出假设来解释这个数据。这是必要的,你不只是做一个假设,并宣布它是真实的。寻找证据(内部或外部的数据)来证实/否定这一理论。例如,如果你相信一个异常是由于一些其他特征的推出或在加德满都(尼泊尔首都)度假,确保人口特征的推出是唯一一个被异常影响地。另外,确保更改的大小与推出的预期一致。

良好的数据分析将会告诉你一个故事。为了确保这是一个正确的故事,你需要告诉自己这个故事,还预测了什么你应该在数据中能看到的,如果假设是真的,然后寻找证据表明它是错误的。这样做就是问自己,“什么实验会让我讲的故事变得有效/无效吗?“即使你不做这些实验,它也许可能会给你如何验证你已有的数据的想法。

好消息是,这些假设和可能的实验可能会引导超越试图了解任何特定的特征或数据的新查询线。然后,您进入理解的领域,不只是这个数据,而产生能够用于未来各种分析的新指标和技术。

从端到端迭代获益的探索性分析

在做探索性分析时,你应该努力得到尽可能多的对于整体分析的迭代。通常情况下,你会有多个步骤的信号采集,处理,建模等。如果你在获得初始信号完美的第一阶段花太长时间,你将错过在相同时间里获取更多迭代的机会。此外,当你最后观察你结束时的数据,你可能会发现改变了你的方向。因此,你最初的重点不应该是完美,而是一路得到合理的东西。给自己留笔记,并承认像过滤步骤和数据记录这样你不能分析/理解的东西,但所有在探索性分析开始时试图摆脱这些就是在浪费时间。

沟通

数据分析从问题开始,而不是数据或技术

总是有一个你要做一些分析的理由。如果你花时间来把你的需求化为问题或假设,它会是一个很长的路来确保你收集你应该收集的数据,并且你正在思考数据中可能存在的空白。当然,你问的问题可以和应该演变因为你在观察数据。但不带问题的分析会终止地毫无目的。

此外,你必须避免找到一些最喜欢技术的陷阱,并随后只发现这些技术工作部分的问题。再次,确保你是明确问题是什么将帮助你避免这个问题。

注意到并计数你的过滤