通过强化学习,工作人员发现原来这18个旋钮可以这样设置,此前他们根本不会这么考虑。而且,事实证明,虽然这种设置看起来很奇怪,但运行得相当不错。
强化学习应用于哪类任务更为适合?
上述例子中,强化学习技术的旋钮设置方案运行得不错,因为每次可执行的操作并不多。只有18个旋钮,我们把旋钮调高调低就行了。结果很容易观察到。在适当的温度范围内,如果功率使用率得到改善,就可获得奖励信号。从这个角度来看,这几乎可称得上是一个理想的强化学习案例。
更为棘手的例子或许是它在搜索结果中的应用。对于不同的查询请求,可呈现的搜索结果比旋钮设置要宽泛得多,而且奖励信号有点难办——用户对搜索结果是否满意,这不好判断。
如果用户对搜索结果不满意,你要怎么提供奖励信号?
这有点棘手。这说明了,强化学习还不够成熟,还不足以在无约束的、奖励信号不那么明显的环境中实现真正的运作。
把研究成果应用于人们每天使用的实际产品时,你们面临哪些最严峻的挑战?
很多机器学习解决方案以及对这些解决方案的研究可在不同的领域中重复使用。例如,我们与地图团队合作展开了一些研究。他们想要读取出现在街景中的所有商业名称和标志,以便更好地了解街道的具体环境,例如,这条街上开了比萨店还是其他什么店。
事实证明,为了在街景图中识别文本,我们可以提供一些已经圈出文本的示例数据,训练机器学习系统形成一种检测出图像文本像素的行为模式。
这是一个通用的功能,地图团队可使用这个功能来分析卫星图像,例如,用来识别美国或世界各地的屋顶来估计太阳能电池板的安装位置。
同样的模型也可用于医学成像分析上。例如,分析医疗图像,找到图像中与临床相关的信息。(灵越)
登陆|注册欢迎登陆本站,认识更多朋友,获得更多精彩内容推荐!