在完成这些练习,梳理出一些特殊产品和特征的额外概要和故事之后,我们就能将团队所有的产品创意在一个简单的二维坐标系中画出来。

在二维坐标系中绘制出想法。使队伍投票得出哪种想法具有最大的用户影响力、哪种使用机器学习的方案体验可以获得最大限度地提升。
这可以让我们区分具有影响力的想法与影响力较低的想法,并与那些没有或者只从中受益很少的想法相比较,机器学习 vs. X。你应该已经在这些会话中结合了工程师的思想,如果你没有,你需要让他们考虑一下这些想法在机器学习上的可行性。无论哪种想法对用户有着最大的影响且机器学习唯一适用(位于上述矩阵中的右上角),这都是你首先想要关注的方面。
3. 个人示例和测试
机器学习系统面临的一个重大的挑战是原型的制作。如果你的产品的全部价值就是使用唯一的用户数据为她专门设计一种体验,你不能仅仅使原型提升速度并使其尽量贴近真实。同样,如果你等到完全地建立一个适当的机器学习系统对设计进行测试,那么在测试后再进行改变就没有多大的意义了。然而,以下两种用户研究方法可以帮助你:使用参与者的个人的实例和「绿野仙踪」研究。
当使用早期设计图做用户研究时,在这一阶段使参与者带来他们自己的数据—比如,个人照片、他们自己的联系人名单、他们所接受的音乐或者电影推荐。记住,你需要确定已完全告知参与者们在测试中数据的用途以及销毁时间。在阶段开始前,对于参与者这甚至可以是一种有趣的「家庭作业」。(毕竟,人们习惯谈论他们最喜欢的电影)
使用这些事例,你就可以模仿系统所做出的正确或者错误的回应。比如,你可以模仿系统为用户推荐错误的电影,以观察她的反映以及她对系统返回错误结果所做出的假设。比起使用模仿的示例或者概念性的说明,这使得你评估这些可能性的消耗和收益有效得多。
第二种比较好的测试建立机器学习系统的产品的方法是执行巫师研究(Wizard of Oz studies)。这种方法曾经风靡一时,在过去 20 年左右的时间中,其作为用户研究方法不被看好。好的,他们现在又回来了。

聊天界面是最简单的检测巫师研究的经历了。只需要一名队友扮演一方与「人工智能」聊天
快速提示:巫师研究的参与者们与他们所认为的人工智能系统进行互动,但是该自主系统实际上由人控制(通常是一个队友)。
让一个队友模仿机器学习系统的行为,比如聊天响应、为参与者建议应该呼叫的人选或者作出电影推荐,这些行为可以假装正在于「智能系统」进行互动。这些互动对于设计的指导非常重要,因为当参与者认真地与他们认为的人工智能接触时,他们会自然地倾向于形成系统的心理模型并根据这些系统调整他们的行为。观察他们与系统的适应性以及二次交互对于影响其设计非常有价值。
4. 衡量权重
机器学习系统也会犯错。弄清楚出错的缘由以及对用户体验的影响至关重要。上文中我们提到的混淆矩阵(confusion matrix) 是机器学习中的一个关键概念,阐释了系统在正常和不正常时分别应该有什么样的表现形态。

混淆矩阵的四种状态及用户相应的反应。
尽管系统对每种错误都一视同仁,但是对于用户来说,每种错误的体验不尽相同。比如,我们有一个『人类与怪兽』分辨器,偶而一次将人类识别成怪兽对于系统来说只是一次小小的识别错误。系统无意冒犯用户或者出于某种文化倾向做出这样的判断。它也不明白,相较于怪兽被错误地识别为人类的情况,用户经常碰到的却是被错判成怪兽。但或许那是我们的人本位意识在作怪。
在机器学习的范畴里,必须在准确率和召回率之间做有意识的权衡取舍。也就是说,明确哪种结果更符合需求--得到所有正确信息,这意味着结果中包含更多的错误信息(优化召回率); 或者最小化错误信息量,而这意味着会牺牲部分正确的信息(优化准确度)。例如,如果用 Google 搜索游乐场(playground),可能会得到以下结果: