11月26日消息,据《财富》网站报道,Google Brain团队的联合创始人杰夫?迪恩在接受《财富》杂志的采访时谈到,研究者在推动人工智能时面临着的挑战是如何把监督学习和非监督学习结合起来,他还解释了强化学习这一AI技术的概念、应用范畴以及一些有趣的具体研究实例,例如,强化学习在棋盘游戏、设置空调旋钮、读取街景图中的所有商业名称和标志、分析卫星图像和医疗成像中的应用。
当我们使用谷歌搜索引擎或用谷歌地图查询路线时,幕后实际上有个“大脑”正在运行,它负责提供相关的搜索结果,或确保谷歌地图的用户在驾驶时不会迷路。
不过,它不是人脑,而是Google Brain(谷歌大脑)研究团队。该团队已创立了1000多个深度学习项目,在过去数年中,这些项目让YouTube、翻译和Photos等许多谷歌产品的性能得到了大幅提升。利用深度学习技术,研究者可将大量数据输入到名为神经网络的软件系统中,这些神经网络能够比人类更快地识别出海量信息中的模式。
在接受《财富》杂志采访时,Google Brain的联合创始人兼领导人之一杰夫?迪恩(Jeff Dean)谈到了最前沿的AI研究、其中涉及的挑战以及AI在产品中的应用。
以下为访谈主要内容:
研究者在推动人工智能时面临着什么挑战?
人类学习大多源自无监督学习,人们只是观察着周围的世界,并理解着周边事物的表现。而机器学习十分活跃主动,但一些相关的问题还未彻底解决,因此还不属于监督学习的范畴。
无监督学习是指通过观察和感知学习,如果计算机可以自己观察和感知,那么能否有助于解决更复杂的问题?
人类视觉主要以无监督学习的方式得到训练。一个小孩在观察世界时偶尔会得到一个监督式信号,别人会说,“这是一只长颈鹿”或“这是一辆车”。而孩子的内心世界自然会对他获得的少量监督式数据做出响应。
我们需要对监督学习和非监督学习展开更多组合操作。但就目前大多数机器学习系统的工作状况来看,我们还未真正实现那个阶段。
能否解释一下强化学习(reinforcement learning)这种AI技术?
强化学习背后的理论是,在不知道下一步采取什么行动时,可先采取一种你认为可行的行动,再观察结果如何,进而摸索一系列行动可能产生的结果。例如,在棋盘游戏中,对对方的棋法做出回应后,最终经过一系列训练,你就可以获得某种奖励信号。
加强学习是,把奖励或责备与你所采取的所有行动相关联,并逐步获得奖励信号。目前在某些领域这一技术确实很有效。
强化学习面临的挑战是,可能采取的行为范畴相当宽泛。在现实生活中,人类会采取各种各样的行动。而在棋盘游戏中,可下的棋步是有限的,游戏规则会起到一定的约束作用,奖励信号也十分明朗——赢或输。
如果目标是研磨一杯咖啡,那么可采取的行动有很多可能性,奖励信号就没有那么明确了。
但我们仍可以把步骤分解清楚。例如,在研磨咖啡时,我们可能学到,在冲泡之前,咖啡豆若没有完全磨碎,泡出的咖啡味道就会很糟糕。
增强学习往往需要探索。因此在物理环境中应用这一技术有点困难。我们开始尝试在机器人中应用这一技术。当机器人必须采取某种行动时,它会受到行为种类的限制。在计算机模拟中,我们可利用大量计算机、获得数百万个范例,应用起来就变得容易多了。
谷歌是否会在核心搜索产品中融入强化学习技术?
谷歌在核心产品中应用强化学习主要是通过DeepMind(谷歌在2014年收购的AI初创公司)与数据中心操作人员之间的协作来实现的。他们利用强化学习来设置数据中心的空调旋钮,同时极大地节约了消耗的功率。强化学习技术能够探索怎么有效地设置旋钮,以及以不同方式旋转旋钮时需如何响应。