
这些结果包含了一部分儿童玩耍的场景,但是并不全都在游乐场。这种情况下召回率优先于准确率。重要的是能够获取全部的游乐场图片,哪怕结果里包含了少量类似但并不正确的图片,而不仅仅只是获取有游乐场的照片而恰恰漏掉了需要的那张。
5. 共同学习和适应计划
最有价值的机器学习模式会随着时间的推移与用户的心理状态一同演变。当人们与这些系统交互的同时,也影响和调整着产品即将呈现的状态。进而这些调整也将反过来影响用户与系统交互的过程,并通过循环反馈改造模型本身。这会形成所谓的『阴谋论』——人们构筑了一套系统却或错误或不完整的心理模型,并试图根据这些虚构规则来控制输出——旨在用明确的心理暗示来引导用户,鼓励用户提供对其自己和模型互利的反馈。

一个良性循环的例子:Gboard 不断改进技术以预测用户要打出的下一个字。使用系统建议的人越多,这些建议就会变得越好。
当机器学习系统根据现有的数据集进行训练时,它们会以不可预知的方式来适应新数据的输入。因此我们也需相应地调整对用户及其反馈的研究。这意味着我们应先于产品周期对用户进行纵向,广泛其高频的研究。由于用户和用例增加,以及需要第一时间了解人们在使用系统时其心理如何随着每次的成功和失败而发展变化。我们应当计划足够的时间,通过量化准确度和错误来评估机器学习系统的性能,并在用户使用系统时获知情感模型的表现。
此外,作为 UXer(用户体验设计者 User Experience Design),我们需要考虑如何在整个产品生命周期内获得用户的原始反馈,以改进机器学习系统。交互模块的设计如果能做到便于反馈且能够及时呈现快速反馈的优越性,这就使得该系统与普通的好系统区别开来。

Google 应用程式会在一段时间内询问特定的卡牌是否有用,以获取相关建议。

人们可对 Google 搜索自动填充功能提供反馈,包括预测可能不准确的原因。
6. 让你的算法使用正确的标签
作为用户体验设计者,我们已经习惯于把点线三维模拟图,小样,样机和进度条作为可交付成果的标志。但对于得到机器学习加持的设计者来说,需要关注的范围有限,其中就不得不提到『标签』。
标签是机器学习的标配。有专门的人员每天的工作就是为成千上万的内容打标签,回答诸如『图片里是一只猫么』这样的问题。一旦有足够的图片被标注成『是』或者『不是』,我们就得到一个数据库可以用来训练专门辨识猫的模型。或者,准确地说,有了这样的标签构成的数据库,就可以在相当程度上预测一张新的图片上是否有一只猫。很简单,对不对?

你能通过这个小测验么
但是真正的挑战在于当模型用于一些比较主观的判断的时候,比如『一篇文章是否有趣』,或者『一封电邮回复是否有意义』。但是,这样的模型不仅训练的时间很长,并且获得一个完整标记的数据集的代价可能非常高,更不要说错误的标签可能会对产品的可行性产生巨大的影响。
大致的流程应该是这样: 首先作出合理假设,并与相关人员进行讨论。这些假设通常是这样的--对于XX用户的XX情况,我们认为他们会倾向于XX而不是XX』。然后尽快地将这些假设转化为最接近可行的测试小样,以便收集反馈和不断改进。
无论想要做任何预测模型,我们都需要找到最适合给机器当老师的专家--具有相关领域专业知识的人。我们建议只需雇佣少数的专家,或把他们当做后援,更重要的是在目前的团队中培养这样的专家,我们称之为「内容专员」。
从这个角度来说,确定哪种假设更具可行性很重要。在展开大规模数据收集分析和标注之前,需要「Content Specialists」从实际用户数据中挑选出示例来执行关键的第二轮验证。用户应该对一个高度接近成品的测试机进行测试,使其认为他们正在与一个真正的 AI 交流(按上述第 3 点)。