OpenAI开课了！深度强化学习最全课程包，教程、代码一网打尽

热门文章 2023-02-14 19:52:06 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

openai 入门

大数据文摘出品

作者：魏子敏、蒋宝尚

继谷歌和微软的人工智能实践课程后，Elon Musk和Sam Altman主导创立的OpenAI刚刚也发布了一门教学+练手的全能课程“Spinning Up in Deep RL”，希望将他们最擅长的技术――深度强化学习能力分享出来，让更多技术人掌握。

先上课程地址

OpenAI地址：

https://spinningup.openai.com/en/latest/index.html

GitHub地址：

https://github.com/openai/spinningup/blob/master/docs/user/running.rst

由OpenAI来上强化学习这门课再合适不过了。今年8月份，OpenAI率领的AI战队，就是凭借这一核心技术能力，在与人类高手对决的DOTA2比赛中，赢得了个人赛，并且在团战中表现不俗。

强化学习是目前最流行的教机器人玩游戏的方法之一，也是在复杂场景下，人工智能进行决策的重要技术。

简单来解释下强化学习，假设你交给机器人一个任务，比如拾取金币，强化学习会在机器人完成任务时给予适当的奖励。这样机器人下一次执行任务时，就更愿意采取“正确”行动。在经历数百次、数千次，甚至数百万次的尝试之后，机器就能逐渐学习到完成任务时所需的策略。

OpenAI人工智能研究实验室一直通过强化学习技术训练机器人玩游戏，也一直是这一技术的全球引领者。昨天，OpenAI发博客宣布了深度强化学习教学资源集的正式发布。“Spinning Up in Deep RL”项目内含教程、清晰的RL代码示例、课程习题、文档等同步学习资料，称旨在让任何人学习成为深度强化学习的熟练实践者。

在DEEP RL中迈出第一步

在博客中，OpenAI强调了深度强化学习的重要性，虽然市面上有非常多的资源帮助人们快速学习这些知识。但是深入下去还是会遇到非常多的困难。OpenAI发布的Spinning Up能够帮助人们学习使用这些人工智能技术并培养对人工智能的直觉。

据悉，这个项目的设计灵感，来自于和OpenAI学者和研究员计划的合作。OpenAI观察到，机器学习非常小白的玩家，如果在一开始能够获得正确的指导和资源，就会在短时间大幅度提升他的专业能力。

Spinning Up in Deep RL 还能够为一些跨学科的领域提供帮助，例如人工智能安全，不光需要强化学习，还需要其他学科技能的辅助。

OpenAI认为，了解RL算法最好的方法是在代码中运行一遍，通过借助Spinning Up，代码编写变得会更加简单：

代码示例：python -m spinup.run ppo --env CartPole-v1 --exp_name hello_world

Spinning Up实现了与Classic Control，Box2D或MuJoCo任务套件中的Gym环境兼容。OpenAI还为新手设计了Spinning Up的代码。简洁，友好，易于学习的设计使得小白更容易上手。OpenAI目标是避免通常存在于深度RL库中的抽象和混淆层。并且对代码进行了注释，以便编程者更加了解所使用的代码。

Spinning Up in Deep RL项目主要由以下几部分组成：

RL术语，各种算法和基本理论的简短介绍。一篇关于如何成长为RL研究员的文章。按主题分类的重要论文的精选清单。详细记录了关键算法的文档、使用其可以独立实现代码，包括： Vanilla Policy Gradient (VPG), Trust Region Policy Optimization (TRPO), Proximal Policy Optimization (PPO), Deep Deterministic Policy Gradient (DDPG), Twin Delayed DDPG (TD3), and Soft Actor-Critic (SAC).当然，为了实践需要，还有一些必不可少的练习。

OpenAI开启全球教育计划

OpenAI也通过这一项目宣告了一个全球教育计划的开启，“Spinning Up in Deep RL只是OpenAI新教育计划的一部分，在一定程度上是对OpenAI愿景的延伸：创建一个全球的社区，共同应对AGI的挑战。OpenAI希望利用这个项目帮助迅速推进安全且广泛有益的人工智能。

2019年2月2日，在旧金山OpenA将会I举办一场关于Spinning Up in Deep RL的研讨会。研讨会将包括3小时的讲座和5小时的半结构化黑客攻击，项目开发和分组会议，研讨会期间OpenAI技术人员全程指导。

奉上工作坊报名链接，旧金山的读者可以顺路一看哦：

https://docs.google.com/forms/d/e/1FAIpQLSdWbG3H3JYC2Vp-bC1yeP1SL_DSi6laLNjW1RjvEEzlA1V6rg/viewform

OpenAI也欢迎更多人参与这一教育项目，并开放了相关工作职位

https://openai.com/jobs/

OpenAI称还将与其他组织合作，帮助他们开展教育计划，包括加州大学伯克利分校的人类兼容人工智能中心（CHAI）。

最后，附上这一课程项目的完整内容表

举报/反馈

gan网络使图像变清晰 openai视觉大模型

gan网络用来解决什么问题,gan网络的缺点,网络使能,gan网络keras

编者按：风格迁移、变装模型这些改变图像属性的任务之前都是GAN的热门话题。现在，OpenAI的研究者们提出了一种新的生成模型，能快速输出高清、真实的图像。以下是论智对OpenAI博客的编译。

这篇文章介绍了我们的新成果――Glow，这是一个可逆的生成模型，其中使用了可反复的1×1卷积网络。2015年，我们曾推出过NICE，它是一种针对复杂高维进行建模的深度学习框架。在可逆模型的基础上，研究人员简化了NICE的网络结构，使模型能生成更加真实的高分辨率图像，并支持高效的采样，能发现可以用来控制数据属性的特征。下面让我们看看这个模型到底怎么玩：

这是年轻貌美的瑟曦。

黑化之后：

沧桑的瑟曦：

除此之外，你还能改变人物头发的颜色、眼睛大小和胡子。接下来，还有另一种玩法，即混合两张图：

碧昂斯和小李子Mix一下，长这样。

这是Glow模型的一个交互式Demo，感兴趣的读者可以移步官网体验试试，支持上传自己的照片调整脸部属性和合成两张图片。

以上是研究者Prafulla Dhariwal和Durk Kingma的面部表情特征变化图。模型在训练时并没有被给予属性标签，但是它学会了一种隐藏空间，在其中特定的方向对应不同特征的变化，例如胡子的茂密程度、年龄、发色等等

生成模型与数据的观察有关，就像面对许多人脸图片，从中学习一种模型，了解数据是如何生成的。学习估计数据生成的过程需要学习数据中所有的结构，并且成功的模型可以合成和数据很相似的输出结果。精确的生成模型可应用的场景非常广泛，例如语音识别、文本分析合成、半监督学习和基于模型的控制。

Glow是一种可逆的生成模型，也可以称作“流式”生成模型，是NICE和RealNVP技术的扩展。目前，流式生成模型的关注度并不如GAN和VAE。

流式生成模型的几个优点有：

确切的隐藏变量推断和对数相似度评估。在VAE中，模型智能大致推断与数据点相对应的隐藏变量的值，而GAN根本就没有能推测隐藏变量的编码器。但是在可逆生成模型中，这一过程能精确地推算出来。这不但能输出一个精确的结果，还能对数据的对数相似度进行优化，而不是之前对数据的下限值优化。
高效的推理和合成。自回归的模型，例如PixelCNN同样是可逆的，但是这种模型的合成结果很难平行化，通常在平行硬件上很低效。而类似Glow的流式生成模型不论在推理还是合成方面都很高效。
为下游任务提供了有用的隐藏空间。自回归模型的隐藏层有着位置的边缘分布，使其更难对数据进行正确操作。在GAN中，数据点经常不能直接表现在隐藏空间中，因为它们没有编码器，可能无法支持数据分布。在可逆生成模型和VAE上就没有这种情况。
对节省内存有重大意义。可逆神经网络的计算梯度应该是恒定的内存量，而不是线性的。

利用这种技术，我们在标准上比较了RealNVP和我们的Glow，RealNVP是在这之前表现最佳的流式生成模型。结果如下：

在含有30000张照片的数据集上训练之后，模型生成的样本

Glow模型能生成非常逼真的高分辨率图像，并且非常高效。模型在NVIDIA 1080 Ti GPU上只用130毫秒（0.13秒）就生成了一张256×256的照片。

我们还可以在两个随机面孔之间进行插值，利用编码器在两个图片之间进行编码，并从中间点中取样。注意，输入的是随机面孔，并不是模型中的样本，所以这也证明了模型可以支持完全的目标分布。

变脸过程十分流畅

无需标签，我们就可以训练一个流式模型，然后利用学习到的隐藏表示进行下游任务。这些语义分布可以改变头发的颜色、图片风格、音调高低或者文本情感。由于流式模型拥有完美的编码器，你可以编码输入并且计算输入的平均隐藏向量。二者间向量的方向可以用来将输入向该方向改变。

这一过程只需要少量的标记数据，并且模型一训练完就能完成。在此之前，用GAN做这些需要训练一个单独的编码器，而VAE需要保证解码器和编码器适用于分布数据。其他类似CycleGAN直接学习表示变化的函数，也需要重新训练每一个变化。

用流式模型改变属性的简单代码

相比之前的RealNVP，我们的进步之处主要是一个可逆的1×1卷积，以及删减掉其他元素，简化了模型。

RealNVP架构由两种图层组成：具有棋盘蒙版的图层和通道蒙版的图层。我们去除了棋盘样的图层，简化了结构。剩下的通道类型的蒙版起到以下作用：

在通道维度中改变输入的顺序
将输入分成A和B两部分，从特征维度的中部开始
将A输入到一个较浅的卷积神经网络。根据神经网络的输出线性地对B进行转换
连接A和B

可以看到我们的1×1卷积在性能上有大大的提升

除此之外，我们取消了批归一化，将它替换成激活归一图层。该图层利用基于数据的初始化，简单地转换并缩放激活，该初始化在给定初始小批量数据的情况下将激活规范化。

我们的结构结合了多种优化，例如梯度检查点，可以让我们在较大规模上训练流式生成模型。我们使用Horovod轻松地将模型在多个机器上进行了训练；文章开头的Demo用了8个GPU。

这篇研究表明，训练流式模型生成真实的高清图像是很有潜力的，并且经过学习的隐藏表示可以很容易用于下流任务。我们对未来工作的方向有以下计划：

1. 在可能性上比其他模型更有竞争力

在对数相似度上，自适应模型和VAE的表现比流式模型要好，但是他们在采样和精确推理上不如流式模型。未来我们会尝试结合这几种模型，以弥补不足。

2. 改进结构，提高计算和参数效率

为了生成逼真的高分辨率图像，人脸生成模型利用大约200M的参数和将近600个卷积层，训练起来成本很高。但是更浅的网络表现得又不好。使用自注意力结构或者进行渐进式训练可能会让训练成本更便宜。

最后欲知更多细节，请查看原论文：d4mucfpksywv.cloudfront.net/research-covers/glow/paper/glow.pdf

来源：OpenAI

编译：Bing

原文地址：blog.openai.com/glow/

OpenAI教程.pdf

openai教程,openlca教程,openai编程,open的教程

OpenAI，由诸多硅谷大亨联合建立的人工智能非营利组织。2015年马斯克与其他硅谷科技大亨进行连续对话后，决定共同创建OpenAI，希望能够预防人工智能的灾难性影响，推动人工智能发挥积极作用。特斯拉电动汽车公司与美国太空技术探索公司SpaceX创始人马斯克、Y Combinator总裁阿尔特曼、天使投资人彼得・泰尔（Peter Thiel）以及其他硅谷巨头去年12月份承诺向OpenAI注资10亿美元。

本文地址： https://www.xxs100.com//show-394902.html