一个强化学习 Q-learning 算法的简明教程

灰太狼 2022-04-23 14:36 291阅读 0赞

**大数据挖掘DT数据分析  公众号： datadw**

本文是对 http://mnemstudio.org/path-finding-q-learning-tutorial.htm 的翻译，共分两部分，第一部分为中文翻译，第二部分为英文原文。翻译时为方便读者理解，有些地方采用了意译的方式，此外，原文中有几处笔误，在翻译时已进行了更正。这篇教程通俗易懂，是一份很不错的学习理解 Q-learning 算法工作原理的材料。

**第一部分：中文翻译**

![640?wx\_fmt=png&wxfrom=5&wx\_lazy=1][640_wx_fmt_png_wxfrom_5_wx_lazy_1]![640?wx\_fmt=png][640_wx_fmt_png]![640?wx\_fmt=png][640_wx_fmt_png 1]![640?wx\_fmt=png][640_wx_fmt_png 2]![640?wx\_fmt=png][640_wx_fmt_png 3]![640?wx\_fmt=png][640_wx_fmt_png 4]![640?wx\_fmt=png][640_wx_fmt_png 5]![640?wx\_fmt=png][640_wx_fmt_png 6]

# **用python实现** #

QLearning：   
1. :给定参数和*R*矩阵   
2. 初始化 *Q*   
3. for each episode:   
3.1随机选择一个出事状态s   
3.2若未达到目标状态，则执行以下几步   
(1)在当前状态s的所有可能行为中选取一个行为a   
(2)利用选定的行为a,得到下一个状态 。   
(3)按照 *Q*(s,a)=*R*(s,a)+max\{Q(,)\}   
(4)    
 为学习参数， *R*为奖励机制， 为在s状态下，执行Q所得到的值。随机选择一个一个状态，即开始搜索的起点，在为100的点为终点。下面是程序。

import numpy as np

GAMMA = 0.8

Q = np.zeros((6,6))

R=np.asarray(\[\[-1,-1,-1,-1,0,-1\],

\[-1,-1,-1,0,-1,100\],

\[-1,-1,-1,0,-1,-1\],

\[-1,0, 0, -1,0,-1\],

\[0,-1,-1,0,-1,100\],

\[-1,0,-1,-1,0,100\]\])

def getMaxQ(state):

return max(Q\[state, :\])

def QLearning(state):

curAction = None

for action in xrange(6):

if(R\[state\]\[action\] == -1):

Q\[state, action\]=0

else:

curAction = action

Q\[state,action\]=R\[state\]\[action\]+GAMMA \* getMaxQ(curAction)

count=0

while count<1000:

for i in xrange(6):

QLearning(i)

count+=1

print Q/5

**第二部分：英文原文**

![640?wx\_fmt=png][640_wx_fmt_png 7]![640?wx\_fmt=png][640_wx_fmt_png 8]![640?wx\_fmt=png][640_wx_fmt_png 9]![640?wx\_fmt=png][640_wx_fmt_png 10]![640?wx\_fmt=png][640_wx_fmt_png 11]![640?wx\_fmt=png][640_wx_fmt_png 12]![640?wx\_fmt=png][640_wx_fmt_png 13]![640?wx\_fmt=png][640_wx_fmt_png 14]![640?wx\_fmt=png][640_wx_fmt_png 15]

**人工智能大数据与深度学习**

**搜索添加微信公众号：weic2c**

**![640?wx\_fmt=png][640_wx_fmt_png 16]**

**长按图片，识别二维码，点关注**

--------------------

**大数据挖掘DT数据分析**

**搜索添加微信公众号：datadw**

**教你机器学习，教你数据挖掘**

![640?wx\_fmt=jpeg][640_wx_fmt_jpeg]

**长按图片，识别二维码，点关注**

[640_wx_fmt_png_wxfrom_5_wx_lazy_1]: https://img-blog.csdnimg.cn/img_convert/6fe155d11b2cbae0c566c491159431d5.png;wxfrom=5&wx_lazy=1
[640_wx_fmt_png]: https://img-blog.csdnimg.cn/img_convert/6eecd66158613b9e0b5f351a8c64d7b9.png
[640_wx_fmt_png 1]: https://img-blog.csdnimg.cn/img_convert/6c24199489d3235d86fa0a7f7bba1b84.png
[640_wx_fmt_png 2]: https://img-blog.csdnimg.cn/img_convert/999c5f8920aaac7387e78c5fce399689.png
[640_wx_fmt_png 3]: https://img-blog.csdnimg.cn/img_convert/822d1028c6ade6d2d72f94fd7d6d0a2f.png
[640_wx_fmt_png 4]: https://img-blog.csdnimg.cn/img_convert/26b6f5f48a32b7128f27afebff96efe6.png
[640_wx_fmt_png 5]: https://img-blog.csdnimg.cn/img_convert/ffccdadbcb8742899ca2ac7931ab53e8.png
[640_wx_fmt_png 6]: /images/20220308/520a04dd4e1b4137b3b287f8e7025726.png
[640_wx_fmt_png 7]: https://img-blog.csdnimg.cn/img_convert/fea0da6f92971d6af00cf26e5052f3c8.png
[640_wx_fmt_png 8]: https://img-blog.csdnimg.cn/img_convert/7c6a34beaccab4823f92ab9883e2cd1b.png
[640_wx_fmt_png 9]: https://img-blog.csdnimg.cn/img_convert/e28c74ed0094e7c958f2d5feeadf1cbb.png
[640_wx_fmt_png 10]: https://img-blog.csdnimg.cn/img_convert/d16fe23eb4f6a4ecde2d1f07f3e4fb0c.png
[640_wx_fmt_png 11]: https://img-blog.csdnimg.cn/img_convert/21111e987a1205b4b0c73d7c76cb50f5.png
[640_wx_fmt_png 12]: https://img-blog.csdnimg.cn/img_convert/9afc6f8b8f8f930a9330de088d00a76d.png
[640_wx_fmt_png 13]: https://img-blog.csdnimg.cn/img_convert/f153ad15408c29c09eb834f7b4a7dd95.png
[640_wx_fmt_png 14]: https://img-blog.csdnimg.cn/img_convert/e9e58ec2272eb3bc98995c0a2951a624.png
[640_wx_fmt_png 15]: /images/20220308/ba183ceb6af04d90815188918ee65b29.png
[640_wx_fmt_png 16]: /images/20220308/931e2f29cef14f3f97452887e34cb690.png
[640_wx_fmt_jpeg]: /images/20220308/19890113e6b249478a8ed3e4ff2536a0.png