增强学习
强化/增强学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。这个方法具有普适性,因此在其他许多领域都有研究,例如博弈论、控制论、运筹学、信息论、仿真优化方法、多主体系统学习、群体智能、统计学以及遗传算法。 –维基百科
简而言之,增强学习是一种基于环境反馈而做决策的通用框架。具体到机器学习领域,很多人往往知道 监督式学习
和 非监督式学习
(甚至半监督式学习),但却不知道第三类机器学习方法,即增强学习。 因为增强学习强调与环境的交互,我认为是离普遍意义上的人工智能更接近的一个领域。 这里『增强』或者『强化』的意思是,根据不断试错而得到的奖惩来不断增强对趋利决策的信念。David Silver下面这张图很好的总结了增强学习的研究主体,即 Agent
、 Environment
以及 State
。
首先在时刻, Agent依据当前的状态以及历史信息来决定下一轮的决策( action
) 。然后给定当前的状态 以及 Agent的决策 ,Environment决定下一轮 的状态 、给Agent的报酬( reward