RL学习笔记 Part-I

引言

Reinforcement Learning，简称RL，又称增强学习、强化学习等，是机器学习的一个分支，与有监督学习和无监督学习齐名。

RL是最符合AI本质的学习方式，与人一样，通过不断的与环境交互、尝试、试错、接收反馈、再去尝试等过程，来不断改进自身，真正具有自学习和成长能力。

较为经典的例子是Atari游戏，RL比人玩的要好，同时在棋牌类游戏也有较多应用和进展，比如AlphaGo就用到了RL。当然也有其他应用，比如控制领域、机器人等。

它的特点和不同点如下：

反馈。用于衡量做的好不好，是一个标量值。可简单的想象成游戏中的得分和失分，RL的目标就是最大化对应的累积反馈。

很多时候，反馈会产生延迟，现在的行为很可能会在以后很长一段时间才有反馈，这有点儿像人类的学习，可能要学很久才会有所回报。

在时刻t，Agent（图中的大脑，可理解为RL学习者）

在时刻t，Environment（图中的地球，可理解为环境）

注意：t在环境阶段自增

状态。是历史的函数，历史是一串观察、反应、反馈序列H_t = O₁, R₁, A₁, …, A_t-1, O_t, R_t。状态可用于决定下一时刻发生什么。

由此产生两类环境：

一个RL学习者（Agent），主要可由如下的一个或多个组成：