淘优惠

淘优惠

强化学习Openai Gym基础环境搭建

热门文章 0

? Gym提供了一些基础的强化学习环境,并且集成了许多有意思的环境,下面我们来一起看下如何在你的电脑上搭建Gym的开发环境吧。

? Gym的Github地址。

? Gym 是一个开源 Python 库,通过提供标准 API 在强化学习算法和环境之间进行通信,以及符合该 API 的标准环境集,用于开发和比较强化学习算法。自发布以来,Gym 的 API 已成为强化学习领域的标准。

? Gym的官方文档地址:https://www.gymlibrary.ml/

? 起初,一直没找到这个文档,看到的是Gym官网上提供的简单的[一页文档](Gym (openai.com))。一直觉得Gym的文档给的太过简单,内容也很少,想开发自己的环境让人无从下手,后面才发现了上面的文档,和自己这段时间的学习基本吻合,也算是两相印证。

? Gym更多的是提供的一个强化学习环境的一个标准,你只要实现Gym的几个关键接口,其余内容都是可以自由发挥的,你可以使用Pygame、pyglet等开发一个游戏用做环境,也可以简单的使用matplotlib来做环境图像的渲染。后面我会有文章单独介绍Gym的API。

? Gym现在支持3.7,3.8,3.9,3.10版本的python,支持在Linux和Mac上安装;也支持Windows上安装Gym,但是并没有官方支持,Gym中的一些环境,如Mujoco,对于Windows的支持不如Linux和Mac,但是对于初学者,是足够使用了。并且在不同的系统上,安装步骤基本类似。

? python环境的管理,个人建议大家使用conda。conda不仅仅是用来安装python包的工具,其更重要的功能是环境管理的工具,我们可以通过conda创建python环境,每个环境之间是相互独立的,各个环境里可以使用不同版本的python,不同版本的开发包。conda的环境类似docker,而且有了conda后,你再也不用在一个电脑因为代码的原因来回切换python的版本,或者为某个项目升降某个包而影响了其他项目。

? conda的安装本位不在多讲,大家可以参考这篇文章(Windows,linux可自行百度)。conda安装好后,一定记得配置国内的源,不然下载速度会受限。

? python 安装好后,执行如下命令,创建一个python虚拟环境(名字大家可以自起),我使用的是3.7版本的Python,大家可自行选择自己需要的版本:

? 稍等片刻,conda就帮我们创建好了名字为Gym、python版本3.7的环境了,

? 这两条命令是查看本机已经安装的python环境,另一个是当前终端激活虚拟环境Gym,也就是将当前终端使用的python切换到Gym,可以看大,最前面的符号,变为了(Gym)。

? 这样,Gym的基础环境就安装完成了,我们打开Pycharm(python的开发环境,建议使用Pycharm,页面简单,功能强大,如果有校园邮箱,可以通过教育优惠使用专业版,也可以使用社区办,也足够使用了),新建一个项目,创建一个python文件,将如下代码复制到文件中:

? 想要执行上面代码,还需要在pycharm中将python环境设置为刚才我们创建的Gym,点击右下角,Add Interpreter,

? 然后选择Existing environment,记得勾选Make available to all project,这样以后其他项目就可以直接使用添加的interpreter了,

? 点击右方的三个点图标,到我们conda的安装目录下C>envsC>Gym目录下的python.exe(这个是windows下的目录,如果是linux,还需到进入bin目录,找到python可执行文件,带小问号图标)

? 点击ok,在点击ok即可,等pycharm切换好环境后,我们就可以执行上面的测试代码了,执行结果如下:

? 本文的内容到这里就结束了,Gym的基础环境搭建还是比较简单的。Gym把不同的模块进行了抽离,我们上面安装的知识Gym的基础环境,其他的如Atari、mojoco等环境,还需要用户单独安装。后面会有文章将如何安装Atari环境,并使用键盘玩Atari游戏。

? 如果本文能对你有所帮助,还请给点赞、收藏、关注博主,如果有什么错误,还请批评指正。


强化学习入门到精通--资料大全集


人工智能是21世纪最激动人心的技术之一人工智能,就是像人一样的智能,而人的智能包括感知、决策和认知(从直觉到推理、规划、意识等)。其中,感知解决what,深度学习已经超越人类水平;决策解决how,强化学习在游戏和机器人等领域取得了一定效果;认知解决why,知识图谱、因果推理和持续学习等正在研究强化学习,采用反馈学习的方式解决序贯决策问题,因此必然是通往通用人工智能的终极钥匙

下面是一些强化学习方面的经验总结整理分享:
1. 视频(从入门到放弃)

1.1 腾讯_周沫凡_强化学习、教程、代码

  • https://www.bilibili.com/video/av16921335?from=search&seid=7037144790835305588
  • https://morvanzhou.github.io/
  • https://github.com/AndyYue1893/Reinforcement-learning-with-tensorflow 1.2 DeepMind_David Silver_UCL深度强化学习课程(2015)、PPT、笔记及代码
  • https://www.bilibili.com/video/av45357759?from=search&seid=7037144790835305588
  • https://blog.csdn.net/u_say2what/article/details/89216190
  • https://zhuanlan.zhihu.com/p/37690204 1.3 台大_李宏毅_深度强化学习(国语)课程(2018)、PPT、笔记
  • https://www.bilibili.com/video/av24724071?from=search&seid=7037144790835305588
  • http://speech.ee.ntu.edu.tw/~tlkagk/courses_MLDS18.html
  • https://blog.csdn.net/cindy_1102/article/details/87904928 1.4 UC Berkeley_Sergey Levine_CS285(294)深度强化学习(2019)、PPT、代码
  • https://www.bilibili.com/video/av69455099?from=search&seid=7037144790835305588
  • http://rail.eecs.berkeley.edu/deeprlcourse/
  • https://github.com/berkeleydeeprlcourse/homework
2. 书籍

2.1 强化学习圣经_Rich Sutton_中文书、英文电子书、代码 ★★★★★(基础必读,有助于理解强化学习精髓)

  • https://item.jd.com/12696004.html
  • http://incompleteideas.net/book/the-book-2nd.html
  • https://github.com/AndyYue1893/reinforcement-learning-an-introduction

2.2 Python强化学习实战_Sudharsan Ravichandiran、代码 ★★★★★(上手快,代码清晰)

  • https://item.jd.com/12506442.html
  • https://github.com/AndyYue1893/Hands-On-Reinforcement-Learning-With-Python

2.3 强化学习精要_冯超 ★★★★(从基础到前沿,附代码)

  • https://item.jd.com/12344157.html

2.4 Reinforcement Learning With Open AI TensorFlow and Keras Using Python_OpenAI(注重实战)

  • https://pan.baidu.com/share/init?surl=nQpNbhkI-3WucSD0Mk7Qcg(提取码: av5p)
3. 教程

3.1 OpenAI Spinning Up英文版、中文版、介绍by量子位(在线学习平台,包括原理、算法、论文、代码)

  • https://spinningup.openai.com/en/latest/
  • https://spinningup.readthedocs.io/zh_CN/latest/index.html
  • https://zhuanlan.zhihu.com/p/49087870

3.2 莫烦Python( 通俗易懂)

  • https://morvanzhou.github.io/
4. PPT

4.1 Reinforcement learning_Nando de Freitas_DeepMind_2019

  • https://pan.baidu.com/s/1KF10W9GifZCDf9T4FY2H9Q 4.2 Policy Optimization_Pieter Abbeel_OpenAI/UC Berkeley/Gradescope
  • https://pan.baidu.com/s/1zOOZjvTAL_FRVTHHapriRw&shfl=sharepset
5. 算法

请问DeepMind和OpenAI身后的两大RL流派有什么具体的区别?

  • https://www.zhihu.com/question/316626294/answer/627373838 三大经典算法

5.1 DQN

  • Mnih. Volodymyr, et al. “Human-level control through deep reinforcement learning.” Nature 518.7540 (2015): 529. (Nature版本)

  • https://storage.googleapis.com/deepmind-data/assets/papers/DeepMindNature14236Paper.pdf

5.2 DDPG

  • David. Silver, et al. “Deterministic policy gradient algorithms.” ICML. 2014.
  • http://proceedings.mlr.press/v32/silver14.pdf

5.3 A3C

  • Mnih. Volodymyr, et al. “Asynchronous methods for deep reinforcement learning.” International conference on machine learning. 2016.
  • https://www.researchgate.net/publication/301847678_Asynchronous_Methods_for_Deep_Reinforcement_Learning
6. 环境

6.1 OpenAI Gym

  • http://gym.openai.com/

6.2 Google Dopamine 2.0

  • https://github.com/google/dopamine

6.3 Emo Todorov Mujoco

  • http://www.mujoco.org/

6.4 通用格子世界环境类

  • https://zhuanlan.zhihu.com/p/28109312
  • https://cs.stanford.edu/people/karpathy/reinforcejs/index.html
7. 框架

7.1 OpenAI Baselines(代码简洁,使用广泛)

  • https://github.com/openai/baselines

7.2 百度 PARL( 扩展性强,可复现性好,友好)

  • https://github.com/paddlepaddle/parl

7.3 DeepMind OpenSpiel(仅支持Debian和Ubuntu,28种棋牌类游戏和24种算法)

  • https://github.com/deepmind/open_spiel
8. 论文

8.1 清华张楚珩博士 ★★★★★[2]

  • https://zhuanlan.zhihu.com/p/46600521 张楚珩:强化学习论文汇总

8.2 NeuronDance ★★★★

  • https://github.com/AndyYue1893/DeepRL-1/tree/master/A-Guide-Resource-For-DeepRL

8.3 paperswithcode ★★★★

  • https://www.paperswithcode.com/area/playing-games
  • https://github.com/AndyYue1893/pwc

8.4 Spinning Up推荐论文 ★★★★★

  • https://zhuanlan.zhihu.com/p/50343077
9. 会议&期刊

9.1 会议:AAAI、NIPS、ICML、ICLR、IJCAI、 AAMAS、IROS等

9.2 期刊:AI、 JMLR、JAIR、 Machine Learning、JAAMAS等

9.3 计算机和人工智能会议(期刊)排名

  • https://www.ccf.org.cn/xspj/rgzn/
  • https://mp.weixin.qq.com/s?__biz=Mzg4MDE3OTA5NA==&mid=2247490957&idx=1&sn=b9aa515f7833ba1503be298ac2360960&source=41#wechat_redirect
  • https://www.aminer.cn/ranks/conf/artificial-intelligence-and-pattern-recognition
10. 公众号

10.1 深度强化学习实验室 ★★★★★ 10.2 深度学习技术前沿 ★★★★ 10.3 AI科技评论 ★★★★ 10.4 新智元 ★★★

11.知乎

11.1 用户

  • 许铁-巡洋舰科技(微信公众号同名)、Flood Sung(GitHub同名)
  • 田渊栋、周博磊、俞扬、张楚珩、天津包子馅儿、JQWang2048 及其互相关注大牛等

11.2 专栏

  • David Silver强化学习公开课中文讲解及实践(叶强,很经典)
  • 强化学习知识大讲堂(《深入浅出强化学习:原理入门》作者天津包子馅儿)
  • 智能单元(杜克、Floodsung、wxam,聚焦通用人工智能,Flood Sung:深度学习论文阅读路线图 Deep Learning Papers Reading Roadmap很棒)
  • 深度强化学习落地方法论(西交 大牛,实操经验丰富)
  • 深度强化学习(知乎:JQWang2048,GitHub:NeuronDance,CSDN:- J. Q. Wang)
  • 神经网络与强化学习(《Reinforcement Learning: An Introduction》读书笔记)
  • 强化学习基础David Silver笔记(陈雄辉,南大,DiDi AI Labs)
12. 博客

12.1 草帽BOY

  • https://blog.csdn.net/u013236946/category_6965927.html

12.2 J. Q. Wang

  • https://blog.csdn.net/gsww404

12.3 Mr.Jk.Zhang

  • https://blog.csdn.net/mrjkzhangma

12.4 Keavnn

  • https://stepneverstop.github.io/
13. 官网

13.1 OpenAI

  • https://www.openai.com/

13.2 DeepMind

  • https://www.deepmind.com/

13.3 Berke


强化学习快餐教程(3)

快餐教学视频,快餐化的知识是什么意思,快餐式教育什么意思,快餐式教育

游戏

强化学习快餐教程

(3) - 

?条命令搞定

atari

游戏

通过上节的例?,我们试验出来,就算是像cartpole这样让?个杆?不倒这样的?模型,都不是特别容易搞定的。

那么像太空?侵者这么复杂的问题,建模都建不出来,算法该怎么写?

别急,我们从强化学习的基础来讲起,学习马尔可夫决策过程,了解贝尔曼?程、最优值函数、最优策略及其求解。然后学习动态规划法、

蒙特卡洛法、时间差分法、值函数近似法、策略梯度法。再然后我们借?深度学习的武器来武装强化学习算法,我们会学习DQN算法族,

讲解2013版的基于Replay Memory的DQN算法,还有2015年增加了Target?络的新DQN算法,还有Double DQN、优先级回放DQN

和Dueling DQN,以及PG算法族的DPG,Actor-Critic,DDPG,以及A3C算法等等。

有的同学表?已经看晕了,除了堆了?堆名词什么也没看懂。别怕,我们程序员解决这样的问题统统是上代码说话,我们马上给?家?条命

令就能解决太空?侵者以及其它更复杂的游戏。

有的同学表?还没看晕,嗯,这样的话后?我们增加?些推导公式和解读最新论?的环节 :)

baseline

登场

下?,就是见证奇迹的时刻。对于太空?侵者这么复杂的问题,我们程序员?什么办法来解决它呢?答案是,调库!

库到哪?找呢?洪七公说过:凡毒蛇出没之处,七步内必有解救蛇毒之药。 其他毒物,?不如此,这是天地间万物?克的?理。OpenAI成

天跟这些难题打交道,肯定有其解法。

没错,我们要?的库,就是openAI的baselines库。

调库之前,我们先下载源码:

git clone https://github.com/openai/baselines

然后安装?下库:

pip install -e .

见证奇迹的时刻到了,我们条命令,就可以解决这些复杂的atari游戏,以太空?侵者为例:

python -m baselines.run --alg=ppo2 --env=SpaceInvadersNoFrameskip-v4

baselines.run有两个参数:?个是算法,ppo2是OpenAI?家的最近策略优化算法Proximal Policy Optimization Algorithms;另?个

是游戏环境,SpaceInvaders是太空?侵者游戏,后?的NoFrameskip-v4是控制参数,之前我们使?v0或v1中,为了模拟?的控制,不

让控制太精准,所以都是有4帧左右的重复。?在训练的时候就去掉这个负优化,使训练的效率更?。

然后baselines就会和atari模拟器打交道去进?训练了,输?类似于下?这样: