强化学习-Q-learning

﹏ヽ暗。殇╰゛Y 2022-11-13 06:23 188阅读 0赞

QLearning是强化学习算法中**value-based** 的算法，Q即为Q（s,a）就是在某一时刻的 s 状态下(s∈S)，采取 动作a (a∈A)动作能够获得收益的期望，环境会根据agent的动作反馈相应的回报reward r，所以算法的主要思想就是将State与Action构建成一张Q-table来存储Q值，然后根据Q值来选取能够获得最大的收益的动作。

算法：  
![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM4MjA1Mjcz_size_16_color_FFFFFF_t_70]  
Q更新公式：  
![在这里插入图片描述][20210326095017627.png]  
**S1 为 s 对应的下一个状态有（1，2，4都是状态3对应的非负状态），随机地，我们选择其中一个座位s1.**

例子：  
假设我们在一个建筑物中有5个房间，这些房间由门相连，如下图所示。 我们将每个房间编号为0到4。建筑物的外部可以视为一个大房间（5）。 请注意，1号和4号门从5号房间（外部）通向建筑物。  
![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM4MjA1Mjcz_size_16_color_FFFFFF_t_70 1]  
初始化：-1不可达，0可达，100可达终点（其中状态2表示起点，5表示终点）  
初始化reward：  
![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM4MjA1Mjcz_size_16_color_FFFFFF_t_70 2]  
初始化Q：  
![在这里插入图片描述][20210326095624933.png]

第一步：随机选择一个状态，其中α=1，γ=0.8，例如1：

![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM4MjA1Mjcz_size_16_color_FFFFFF_t_70 3]  
以此类推进行计算，因为是随机选择下一状态，有一部分可能计算不一样，多轮迭代，收敛。

最终：  
![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM4MjA1Mjcz_size_16_color_FFFFFF_t_70 4]

所以：  
![在这里插入图片描述][watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM4MjA1Mjcz_size_16_color_FFFFFF_t_70 5]

[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM4MjA1Mjcz_size_16_color_FFFFFF_t_70]: /images/20221022/d80253ab8f1c4126b1a2132cf53f80b1.png
[20210326095017627.png]: /images/20221022/4faffefbeb534f1c81dffeba756384b9.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM4MjA1Mjcz_size_16_color_FFFFFF_t_70 1]: /images/20221022/cf6492786f3a4714b0cb6bc82ca0cca0.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM4MjA1Mjcz_size_16_color_FFFFFF_t_70 2]: /images/20221022/948d7354cfcb4d41890a04e4cd125afe.png
[20210326095624933.png]: /images/20221022/3c8c8f40b1e4489a8ed59c6ba1f4aa49.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM4MjA1Mjcz_size_16_color_FFFFFF_t_70 3]: /images/20221022/1a16a9fecc634f5da0c9747dc8c2d2f0.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM4MjA1Mjcz_size_16_color_FFFFFF_t_70 4]: /images/20221022/0b59790cdf45449fb79f3410edaf84ec.png
[watermark_type_ZmFuZ3poZW5naGVpdGk_shadow_10_text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM4MjA1Mjcz_size_16_color_FFFFFF_t_70 5]: https://img-blog.csdnimg.cn/20210326095110950.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzM4MjA1Mjcz,size_16,color_FFFFFF,t_70