强化学习Q - learning

「爱情、让人受尽委屈。」 2022-05-16 10:52 263阅读 0赞

作者：牛阿  
链接：https://www.zhihu.com/question/26408259/answer/123230350  
来源：知乎  
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

让小鸟学习怎么飞是一个**强化学习**（reinforcement learning）的过程，强化学习中有**状态**(state)、**动作**(action)、**奖赏**(reward)这三个要素。智能体（Agent，在这里就是指我们聪明的小鸟）需要根据当前状态来采取动作，获得相应的奖赏之后，再去改进这些动作，使得下次再到相同状态时，智能体能做出更优的动作。

**状态的选择** 在这个问题中，状态的提取方式可以有很多种：比如说取整个游戏画面做图像处理啊，或是根据小鸟的高度和管子的距离啊。在这里选用的是跟[SarvagyaVaish][]项目相同的状态提取方式，即取小鸟到下一根下侧管子的水平距离和垂直距离差作为小鸟的状态：

![90f9c09449f9a948107715bc1a8fb03b_hd.png][]

（图片来自[Flappy Bird RL by SarvagyaVaish][]）

记这个状态为![(dx,dy)][dx_dy]，![dx][]为水平距离，![dy][]为垂直距离。

**动作的选择** 小鸟只有两种动作可选：1.向上飞一下，2.什么都不做。

**奖赏的选择** 这里采用的方式是：小鸟活着时，每一帧给予1的奖赏；若死亡，则给予-1000的奖赏；若成功经过一个水管，则给予50的奖赏。

## **关于Q** ##

提到Q-learning，我们需要先了解Q的含义。

**Q**为**动作效用函数**（action-utility function），用于评价在特定状态下采取某个动作的优劣，可以将之理解为智能体（Agent，我们聪明的小鸟）的大脑。我们可以把Q当做是一张表。表中的每一行是一个状态![(dx,dy)][dx_dy]，每一列（这个问题中共有两列）表示一个动作（飞与不飞）。

例如：

![bdf30da48f4d4db5b6e55cb4f28c10b8_hd.png][]

这张表一共 ![m \\times n][m _times n] 行，表示 ![m \\times n][m _times n] 个状态，每个状态所对应的动作都有一个**效用值**。训练之后的小鸟在某个位置处飞与不飞的决策就是通过这张表确定的。小鸟会先去根据当前所在位置查找到对应的行，然后再比较两列的值（飞与不飞）的大小，**选择值较大的动作作为当前帧的动作**。

## **训练** ##

那么这个Q是怎么训练得来的呢，贴一段伪代码。

Initialize Q arbitrarily //随机初始化Q值
    Repeat (for each episode): //每一次游戏，从小鸟出生到死亡是一个episode
        Initialize S //小鸟刚开始飞，S为初始位置的状态
        Repeat (for each step of episode):
            根据当前Q和位置S，使用一种策略，得到动作A //这个策略可以是ε-greedy等
            做了动作A，小鸟到达新的位置S'，并获得奖励R //奖励可以是1，50或者-1000
            Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*maxQ(S',a)] //在Q中更新S
            S ← S'
        until S is terminal //即到小鸟死亡为止

其中有两个值得注意的地方

1.“根据当前Q和位置S，使用一种策略，得到动作A，这个策略可以是ε-greedy等。”

这里便是题主所疑惑的问题，如何在探索与经验之间平衡？假如我们的小鸟在训练过程中，每次都采取当前状态效用值最大的动作，那会不会有更好的选择一直没有被探索到？小鸟一直会被桎梏在以往的经验之中。而假若小鸟在这里每次随机选取一个动作，会不会因为探索了太多无用的状态而导致收敛缓慢？

于是就有人提出了**ε-greedy**方法，即每个状态**有ε的概率进行探索**（即随机选取飞或不飞），而**剩下的1-ε的概率则进行开发**（选取当前状态下效用值较大的那个动作）。ε一般取值较小，0.01即可。当然除了ε-greedy方法还有一些效果更好的方法，不过可能复杂很多。

以此也可以看出，Q-learning并非每次迭代都沿当前Q值最高的路径前进。

2. ![Q(S,A) \\leftarrow (1-\\alpha)\*Q(S,A) + \\alpha\*\[R + \\gamma\*max\_aQ(S',a)\]][Q_S_A_ _leftarrow _1-_alpha_Q_S_A_ _ _alpha_R _ _gamma_max_aQ_S_a]

这个就是Q-learning的训练公式了。其中**α**为**学习速率**（learning rate），**γ**为**折扣因子**（discount factor）。根据公式可以看出，**学习速率α越大，保留之前训练的效果就越少**。折扣因子γ越大，![max\_aQ(S', a)][max_aQ_S_ a]所起到的作用就越大。但![max\_aQ(S', a)][max_aQ_S_ a]指什么呢？

小鸟在对状态进行更新时，会考虑到**眼前利益**（R），和**记忆中的利益**（![max\_aQ(S', a)][max_aQ_S_ a]）。

![max\_aQ(S', a)][max_aQ_S_ a]指的便是**记忆中的利益**。它是指小鸟记忆里下一个状态![S'][S]的动作中效用值的最大值。如果小鸟之前在下一个状态![S'][S]的某个动作上吃过甜头（选择了某个动作之后获得了50的奖赏），那么它就更希望提早地得知这个消息，以便下回在状态![S][S 1]可以通过选择正确的动作继续进入这个吃甜头的状态![S'][S]。

**可以看出，γ越大，小鸟就会越重视以往经验，越小，小鸟只重视眼前利益（R）。**

根据上面的伪代码，就可以写出Q-learning的代码了。

[SarvagyaVaish]: https://link.zhihu.com/?target=https%3A//github.com/SarvagyaVaish/FlappyBirdRL
[90f9c09449f9a948107715bc1a8fb03b_hd.png]: /images/20220516/58ee2b83cac043c995cd9ae558eb2502.png
[Flappy Bird RL by SarvagyaVaish]: https://link.zhihu.com/?target=http%3A//sarvagyavaish.github.io/FlappyBirdRL/
[dx_dy]: /images/20220516/6f0b0755c44744c8af21f8250ae8ee37.png
[dx]: https://www.zhihu.com/equation?tex=dx
[dy]: /images/20220516/21cecf67d60a4687b514b3f90fdc4294.png
[bdf30da48f4d4db5b6e55cb4f28c10b8_hd.png]: /images/20220516/b1d81a3c309240829ad836fa4e2557e1.png
[m _times n]: https://www.zhihu.com/equation?tex=m+%5Ctimes+n
[Q_S_A_ _leftarrow _1-_alpha_Q_S_A_ _ _alpha_R _ _gamma_max_aQ_S_a]: https://www.zhihu.com/equation?tex=Q%28S%2CA%29+%5Cleftarrow+%281-%5Calpha%29%2AQ%28S%2CA%29+%2B+%5Calpha%2A%5BR+%2B+%5Cgamma%2Amax_aQ%28S%27%2Ca%29%5D
[max_aQ_S_ a]: https://www.zhihu.com/equation?tex=max_aQ%28S%27%2C+a%29
[S]: /images/20220516/5360cb4ee79c41baa934ed14a24a0cc6.png
[S 1]: https://www.zhihu.com/equation?tex=S