强化学习简介
强化学习是最接近人类学习过程的,很多情况下我们无法直接表达什么是正确的什么是错误的(比如:我正在爬山,迈了一大步,又迈了一小步,那么没法儿说我迈了大步正确还是错误),但是可以通过惩罚不好的结果或者奖励好的结果来强化学习的效果(我迈了个大步,导致没有站稳,那么对迈大步做惩罚,然后接下来我会迈小一点)。所以强化学习是一个序列的决策过程,学习器的学习目标是通过在给定状态下选择某种动作,寻找合适动作的策略序列使得它可以获得某种最优结果的过程。
强化学习的几个要素,体现其序列、交互性:
- 环境(environment):强化学习所处的上下文;
- 学习器(agent):与环境的交互并学习的对象,具有主动性;
- 动作(action):处于环境下的可行动作集合;
- 反馈(feedback):对动作的回报或惩罚;
- 策略(policy):学习到的策略链。
强化学习的有趣应用例如: