从Zero到Hero，OpenAI重磅发布深度强化学习资源

热门文章 2023-02-14 21:27:00 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

从zero到hero是什么意思,从zero到1,从零到英雄,从零到英雄英语怎么说

机器之心报道

机器之心编辑部

今天，OpenAI 发布了 Spinning Up，这是一份教学资源，旨在让所有人熟练掌握深度强化学习方面的技能。Spinning Up 包含清晰的 RL 代码示例、习题、文档和教程。

在项目主页中，OpenAI 提供了非常完整的使用教程，包括 Spinning Up 的详细介绍、各种环境下的安装方法、收录的算法，以及实验实现的教程等。除此之外，OpenAI 也提供了丰厚的学习资料，包括强化学习的入门基础、结合 Spinning Up 学习 RL 的课程、论文推荐、实验练习和基准结果参考等。给人的第一印象就是，要想在深度强化学习上从 Zero 到 Hero，天天逛这个网站就够了~

项目地址：https://spinningup.openai.com/en/latest/

在 Deep RL 中迈出第一步

OpenAI 相信深度学习――特别是深度强化学习――将在强大是 AI 技术发展中发挥核心作用。虽然有很多资源可以让人们快速了解深度学习，但深度强化学习更具挑战性。为此，OpenAI 设计了 Spinning Up 来帮助人们学会使用这些技术并扩展关于它们的一些想法。

OpenAI 设计 Spinning Up 的灵感来源于与该机构学者和研究员的合作，通过该合作，他们发现，如果获得正确的指导和资源，在机器学习方面经验甚少甚至没有经验的人也可以快速成长为从业者。在 Deep RL 中开发的 Spinning Up 正是为这种需求准备的，该资源已被纳入了 2019 年的学者和研究员团队课程（https://blog.openai.com/openai-scholars-2019/）。

OpenAI 还发现，具有 RL 方面的能力可以帮助人们参与跨学科研究领域，如 AI 安全――涉及强化学习和其它技能的混合。还有很多从零开始学习 RL 的人向 OpenAI 寻求建议，因此他们决定把提供的这些非正式建议正式发布出来。

Spinning Up 主要包含以下核心内容：

强化学习技术的简介，包含各种算法和基本理论的直观理解；
一些介绍如何才能做好强化学习研究的经验；
重要论文的实现，按照主题进行分类；
各种强化学习算法的单独实现，它们都有非常完善的介绍文档；
最后还会有一些热身练习题。

整个项目主要可以分为用户文档、强化学习简介、资源、算法文档和 Utilities 文档。其中用户文档主要介绍了学习该项目所需要的一些准备，包括怎样安装 Python 和 OpenAI Gym 等强化学习环境，学习资源的主要内容以及实战所需要注意的事项等。

在强化学习简介中，OpenAI 主要讨论了 RL 中的关键概念、关键算法和策略优化等内容。根据这一部分的内容，至少我们会对强化学习有一个清晰的认识，也就正式从小白到入门了。简介后面的资源章节才是进阶者的最爱，OpenAI 会先介绍如何才能做好强化学习研究，包括需要怎样的背景知识、如何写 RL 代码及思考强化学习问题等。当然这一部分还提供了非常多的「硬资源」，OpenAI 按照 12 大研究主题提供了 98 篇「必读」论文，并提供了其它一些练习题与挑战赛。

估计等读者搞定资源部分，就可以成为真正的强化学习研究者了。当然我们也可以跳过直接学习第三部分的算法文档，它包含了策略梯度、策略优化和 Actor-Critic 等多种主流强化学习算法。只要我们完成了第一部分的前提准备，第三部分的各种算法就能手到擒来。此外对于每一个 RL 算法，文档都会提供全面的介绍，包括基本思想、公式定理、模型组件和参数等。

支持

该项目具有以下支持计划：

高带宽软件支持期：发布后的前三周，OpenAI 将快速处理 bug 修复、安装问题，以及解决文档中的错误和歧义。我们将努力简化用户体验，使用 Spinning Up 自学变得尽可能简单。
2019 年 4 月的主要审查：发布约六个月后，OpenAI 将基于从学习社区收到的反馈认真审查软件包的状态，并宣布任何未来修改的计划。
内部开发的公开发布：如果 OpenAI 在与学者和研究员一起工作时，对 Deep RL 中的 Spinning Up 进行了修改，OpenAI 会将修改发至公共报告，并立即向所有人开放。

OpenAI 还将与其它组织合作来帮助人们学会使用这些材料。他们的第一个合作伙伴是加州大学伯克利分校的 Center for Human-Compatible AI (CHAI)，并将在 2019 年初合作举办一个关于深度 RL 的研修班，类似于计划在 OpenAI 举办的 Spinning Up 研修班。

Hello World

感受深度强化学习算法表现如何的最好方式就是运行它们。而有了 Spinning Up，这变得非常简单：

在训练结束时，你将获得关于如何从实验中查看数据以及观看训练智能体视频的指导。

Spinning Up 实现与 Classic Control、Box2D 和 MuJoCo 任务套件中的 Gym 环境兼容。

考虑到新学者，我们为 Spinning Up 设计了代码，使其更短、更友好，也更加容易学习。我们的目标是用最小的实现来演示理论如何变成代码，避免深度强化学习库中常见的抽象层和模糊层。我们倾向于清晰化而不是模块化――实现之间的代码重用严格受限于日志和并行实用程序。给代码加注释，这样你就总能知道事情的进展，并在相应的文档页面上得到背景材料（和伪代码）的支持。

学习资源概览

在整个项目中，强化学习简介部分和算法部分可能是很多数读者都非常感兴趣的章节，下面主要介绍了这两部分包含的内容。首先在强化学习简介中，关键概念是必须解释清楚的：

状态和观察值；
动作空间；
策略；
轨迹；
不同形式化的奖励；
RL 最优化问题；
值函数。

在关键概念之后，OpenAI 详细介绍了各种强化学习算法及技术在整体所处的位置。如下所示，强化学习也是个桃李满天下的大家族：

最后在强化学习简介部分，OpenAI 还重点介绍了策略优化，这一部分有挺多推导的，尤其是梯度的推导。不过好消息是这些推导都给出了详细的过程，包括变换、消元和一些对数技巧等。读者可以感受下推导过程：

此外在算法章节，Spinning Up 还收录了很多重要的强化学习算法，在项目页上也给出了各个算法的详细介绍和调用方法。

Spinning Up 收录的算法。

比如策略梯度算法，如上图所示，文档中会给出关键的方程、伪代码、使用方法以及参考文献。

策略梯度算法的有限时域未折扣回报的梯度期望，以及策略参数的梯度更新方法。

策略梯度算法的伪代码。

策略梯度算法的调用函数，我们可以看到，Spinning Up 提供的函数调用可以直接设置参数。文档还提供了详细的参数解释。

策略梯度算法的参考文献。

Spinning Up 提供了 MuJoCo Gym 任务套件的 5 个环境下的算法实现基准，包括 HalfCheetah、Hopper、Walker2d、Swimmer、Ant。

HalfCheetah-2 环境下训练 3 百万时间步的基准结果。

从文字生成图像—DALL·E教程(一)：模型起源及功能介绍

文字生成图文,文字生成流程图,文字制作成图像,文字形成图片的软件
在这个视频中，我们将走进OpenAI?DALL.E?模型，这是一个图像版GPT-3模型，可以从文本生成图像，突破了图像模型和文本模型的边界。我们将探讨DALL.E?模型的起源，以及它的各种用例。我们对DALL.E主页提供的所有例子进行了深刻剖析，从中你可以了解到prompt设计的技巧、DALL.E的能力及缺陷，思考如何将其应用在自己的研究中。 DALL.E?系列教程旨在提供对该模型最详细、最深入的讲解，希望你在这个视频后对?DALL.E?有了很好的了解。

代写论文、推广返佣......ChatGPT不仅带动股价，还衍生灰产

　　写论文、写动画脚本甚至撰写行业分析报告，在“万能”的聊天机器人ChatGPT大火之际，有人开始利用这一免费功能生财。因其注册过程较为繁琐，有人开始做起付费开通账号、付费提问的生意。甚至有个人公众号在接入ChatPGPT功能后，再收费发展下线推广其应用，每当有新用户进入就可返佣。

　　当记者在聊天对话框中问及，是否知晓有人付费才能与其聊天时，ChatGPT竟表示已清楚这一情况，其所属公司OpenAI有权采取适当行动。不过这些灰产的生存时间似乎不会太长，紧随ChatGPT其后，谷歌和百度都将推出类似应用。随着类似程序增加，这类应用将取代哪些职业也引起热议。

　　不过，深度科技研究院院长张孝荣认为，目前ChatGPT更像“玩具”，而非生产力工具。在获得更大技术突破前，这一应用热度可能就会快速退潮。

　　记者与APPChat AI对话

　　ChatGPT已衍生灰产

　　写一封毁灭世界的计划书、老婆和妈妈同时掉进水里先救谁？蚊子为什么没有被雨滴砸死？

　　自2022年11月30日推出后，ChatGPT就以“万能”的形象在互联网世界火了一把。无论什么问题，它总能给出回答。最近，人们对其应用变得更为实际：写一封邮件、写一篇论文、写一篇行业分析报告......不过，如今想要和ChatGPT说上一句话并不容易。

　　因使用人数太多，2月7日晚，ChatGPT官网一度提示称“已经满负荷了”“许多人在最近一小时蜂拥而至我们的网站，但我们的（网络）资源是有限制的。”

　　除了程序负荷拉满，其注册程序也难倒了一批人。虽然人工智能公司OpenAI推出这一功能时是免费的，但却只对部分区域开放服务。国内用户如果想向ChatGPT提问，首先需要改变IP地址，再进入OpenAI公司官网注册账号，最后还要找到一个OpenAI可服务的区域的电话号码，接收验证码。现在，社交网络上已随处可见注册账号的教学视频。

　　为此，淘宝、闲鱼等电商平台上，已经有人兜售账号及注册教程，收费5元到50元不等。甚至有人收费199元售卖使用教程，广告语为“用AI为事业和生活赋能”。

　　淘宝兜售的相关链接

　　众多山寨微信小程序和APP也出现了。在微信搜索框输入“ChatGPT”就可以看到，“GPTchat都知道”“超级AI”“ChatGPT智能聊天机器人”等一众公众号均介绍已接入chatGPT官方接口，具有原生能力。

　　这些小程序是否真的接入ChatGPT端口目前仍存疑，但不妨碍他们已经开始就人工智能聊天服务开始收费。

　　例如，一个名为“ChatGPT机器人”的公众号收费标准就为：8元提问20次、88元提问1300次。该公众号还有“开通推广员赚钱”的选项，意即付费加入该团队成为推广员，就可获取推广文案、海报和客服等。但该推广员邀请的用户付费购买服务后，该推广员即可获得佣金。

　　据界面新闻报道，通过公众号“GPT深蓝”跳转来到的“ChatGPTAI”页面，也显示有199元月度会员、399元季度会员、999元年度会员的ChatVIP充值机制，均不受对话次数限制。不仅如此，该页面还有“加入代理赚钱”的选项，“合伙人”通过二维码或推广链接进行推广，有V1到V3级别合伙人服务费分佣机制。该产品显示由“成都亿柏科技有限公司”运营。极目新闻记者在天眼查APP搜索了解到，该公司成立于2021年，由徐国强持股70%、黄成持股30%。

　　有人推出付费教程售价199元

　　类似应用将陆续上线

　　除了付费使用和付费教程，甚至有人推出服务：利用ChatGPT帮写论文。在二手交易平台闲鱼上，有卖家提供服务称，可以训练ChatGPT给客户写论文，收费500元/6000字。因为“不是一次性生成文章，而是需要问多个问题再整合”。

　　不过，ChatGPT似乎已经发现这一情况。2月8日，极目新闻记者向ChatGPT发问，是否知道很多人需要付费才能和他说上话时，ChatGPT回复：“是的，有的公司将我作为服务提供给他们的客户，并在应用程序上或网站上收费。但我本身并不收费，用户可以在OpenAI网站上免费使用我。”

　　记者问ChatGPT是否知晓有第三方在对其服务收费

　　极目新闻记者问及平台是否会处罚这些山寨小程序时，ChatGPT回复：“我本身不具有处罚能力。OpenAI对其许可的使用方式有明确的规定和条款，如果有任何违反规定的行动，OpenAI有权采取适当的行动。”

　　记者问ChatGPT是否知晓有第三方在对其服务收费

　　不过，无论OpenAI是否将管理ChatGPT的端口接入，这些山寨程序的生存时间都不会太久。

　　有人接入ChatGPT端口并对提问收费

　　ChatGPT的工作原理为，输入日常使用的文字，ChatGPT利用自然语言理解（NLP）能力，将自然语言转换为电脑指令，从海量的网页中找到素材，再次通过对自然语言的理解，输出人们能懂的回答。2月7日，谷歌公司已在其官网宣布，将面向测试人员推出对话式人工智能服务Bard，并逐步向公众开放。百度也在同日确认，将推出chatGPT类似项目并命名为“文心一言”，预计今年3月完成内测，随后面向公众开放。

　　业内人士称热潮终将褪去

　　ChatGPT功能如此强大，也引发了部分职业群体是否会被ChatGPT取代的讨论。

　　有人向ChatGPT发问：“你觉得你会取代人类的一部分职业吗？”

　　对此问题，ChatGPT也列出了清单：数据录入员、重复性办公室工作、工厂生产线上的简单任务、电话销售员、简单的客服工作。ChatGPT说，这不是一个完整的清单，也不是说这些职业将立即消失。ChatGPT还“安慰”提问者：“人类仍然在创造新的职业和需求，并且技术也将创造新的工作机会。因此，人类和人工智能将共存和协作，而不是相互替代。”

　　自宣布正在研发这一类技术后，最近一周，谷歌和百度股价已上涨超10%。

　　除了这两家即将发布应用的公司外，多支相关概念股也出现一波上涨。人工智能企业云从科技自2月1日以来，股价连续上涨至今。2月8日收盘价报34.97元，7天内股价已上涨53%。

　　1月30日至2月7日，同花顺人工智能板块指数从779点上涨至853点，涨幅9%。不过，2月8日该板块指数下跌1.37%。2月8日当天，板块内仅61家公司股价出现上涨，226家已经开始下跌。

　　深度科技研究院院长张孝荣认为，目前ChatGPT的传播范围虽然已从核心技术精英圈扩大到大众层面，但其热度在核心圈已经下降。而且该程序虽然语言组织能力比较强大，能够迅速形成一篇看得过去的文章，但缺点也在于此，“由于语料库基于互联网开放信息，文章的细节经不起推敲。”

　　“我认为，目前ChatGPT水平有限，距离实际应用还有很远的路。目前它更像一个‘玩具’，而不是生产力工具。科技巨头会在这个方向布局，跟进研发，但在获得更大的技术突破前，ChatGPT很难成为一个风口。按照行业发展规律，过不久就会快速退潮。”张孝荣说。

本文地址： https://www.xxs100.com//show-394929.html