淘优惠

淘优惠

OpenAI发布强化学习教程,新手友好,代码简约易懂

热门文章 0
openai 入门,open aip,openai baseline使用,openai怎么使用
量子位

栗子 发自 凹非寺量子位 出品 | 公众号 QbitAI

打开网易新闻 查看精彩图片

OpenAI说,完全没有机器学习基础的人类,也可以迅速上手强化学习。

他们刚刚发射了一套强化学习 (RL) 入门教程,叫做Spinning Up。真诚友好,无微不至。

从一套重要概念,到一系列关键算法实现代码,再到热身练习,每一步都以清晰简明为上,全程站在初学者视角。

打开网易新闻 查看精彩图片

新手光环

团队表示,目前还没有一套比较通用的强化学习教材,RL领域只有一小撮人进得去。这样的状态要改变啊,因为强化学习真的很有用。

说不定你也用得上。所以,仔细翻翻这个新手包,看看到底有多关怀:

五大核心

Spinning Up包含了5个重要部分。

第一部分,认识一下强化学习

这里分为三小步:

打开网易新闻 查看精彩图片

一是了解基础概念,即知道RL能用来做什么,理解概念和术语。

打开网易新闻 查看精彩图片

二是了解算法分为哪些种类。

打开网易新闻 查看精彩图片

三是了解策略优化

https://spinningup.openai.com/en/latest/spinningup/rl_intro.html

第二部分,成为RL研究人员

(此部分可选择性忽略)

打开网易新闻 查看精彩图片

如何让自己习惯RL研究人员的新设定?

第一,知道哪些数学知识深度学习知识,是需要简要了解的。

第二,在实践中学习,写最最最简单的实现 (后面有代码) ,注重理解。

第三,有了小小的经验之后,试着开发自己的研究项目。这是入门之后的事了。

第四之后,有些遥远,暂时不详述了。

第三部分,论文阅读清单

这个论文列表非常详细,分为12个小类别,每个类别下有2-8篇论文。

打开网易新闻 查看精彩图片

团队说,列表比全面还全面,足够给一个想做RL研究的人类铺路了。

https://spinningup.openai.com/en/latest/spinningup/keypapers.html

第四部分,为初学者定制的代码

GitHub上面有个叫spinningup的项目,包含了强化学习能用到的各种关键算法:

VPG、TRPO、PPO、DDPG、TD3和SAC等。

团队说,这里的代码都是为初学者定制,很短很好学。比起模块化,Spinning Up以清晰为重,代码都注释过了,可以很清楚得看出每一步都在做什么,并且有背景材料可以辅助理解。

目标就是用最简约的实现,来演示一条理论是如何变成代码的,而抽象层和混淆层(Layers of Abstraction and Obfuscation) 这些东西,都省去了。

https://github.com/openai/spinningup

第五部分,热身练习

这里有两个习题集。

打开网易新闻 查看精彩图片

一是关于实现的基础,二是关于算法失效模式。

后面还有附加题,是要从零开始自己写代码实现,相对艰辛。

https://spinningup.openai.com/en/latest/spinningup/exercises.html

Hello World

团队说,要感受强化学习是怎样运作的,最好的方式是跑一跑。

在Spinning Up里面,就很容易,只要用这段代码:

训练结束的时候,你会看到说明,然后可以按照里面讲的方法来观察数据,也观察训练好的智能体的视频。

另外,Spinning Up里面的实现,和一系列Gym环境都兼容:Classic Control,Box2D,MUJOCO等等。

打开网易新闻 查看精彩图片

去吧,皮卡丘

看上去,好像真的没有很难。

OpenAI就是希望其他领域的研究人员,也能很轻易地用强化学习来辅助研究。

所以,试一下吧。

教程入口:https://spinningup.openai.com/en/latest/index.html

GitHub传送门:https://github.com/openai/spinningup

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。


OpenAI开放GPT-3独家授权,马库斯:呵呵。浪潮源巨量语言预训练模型开放免费API。

openai开放国家,openai开放地区,openai gpt-3,opengpu

本文部分内容由大模型创作而成,读者可前往开放平台air.inspur.com)注册申请体验源模型的内容创作能力。?

通用认知智能是人工智能的发展新阶段,能够像人一样思考、推理和决策,一直是人工智能的目标和期待。而预训练大模型则有望实现人工智能从感知到认知的跃迁,将更高效地赋能AI产业化和产业AI化。

在过去两年中,谷歌、DeepMind、OpenAI等科技机构陆续推出自己的巨量预训练模型,也开源了部分模型,提供API服务。但目前这些服务都只面向特定国家或地区的用户,而且价格不菲。面对发达国家对核心科技的封锁以及中文巨量语言模型的空白,浪潮人工智能研究院在2021年9月28日在京发布全球最大规模人工智能巨量模型 “源1.0”。“源”的单体模型参数量达2457亿,超越美国OpenAI组织研发的GPT-3,成为全球最大规模的AI巨量模型。

“源1.0”在语言智能方面表现优异,获得中文语言理解评测基准CLUE榜单的零样本学习和小样本学习两类总榜冠军。在零样本学习榜单中,“源1.0”超越业界最佳成绩18.3%,在文献分类、新闻分类,商品分类、原生中文推理、成语阅读理解填空、名词代词关系6项任务中获得冠军;在小样本学习的文献分类、商品分类、文献摘要识别、名词代词关系等4项任务获得冠军。在成语阅读理解填空项目中,源1.0的表现已超越人类得分。

为了进一步推进大模型的广泛适用性,源开源开放平台(https://air.inspur.com?)?于2021年10日正式上线,为国内学术研究单位和产业实践用户开启了一扇全新通往认知智能的大门。降低巨量模型研究和应用门槛,推进AI产业化和产业AI化进程,为人工智能研究创新和产业发展做出贡献。

该平台依托“源1.0”巨量语言预训练模型,以开放API的形式为用户提供通用大模型的能力。仅用一个通用的API接口,用户就可以直接使用源模型的内容创作、翻译、问答、对话、摘要生成等多种能力,同时支持开发者将自身业务和开放能力相结合,打造出更多符合行业需求的下游应用和服务。源开放平台的上线,意味着国内用户也能低成本、方便、快捷地使用预训练大模型,在中文认知智能的发展道路上具有重要意义。

第一步:注册。在源平台(https://air.inspur.com?)?首页,点击右上角注册,填写基本信息,注册为用户。

第二步:申请。点击首页上部左侧的API申请按钮,填写申请的基本信息进行提交,就完成了API免费使用的申请。点击数据集申请,可以进行开放数据的申请。开放数据集有1TB,是源模型团队随机网络抓取后经过处理的高质量文本数据。

第三步:审核。已申请用户等待申请审核通过,获得授权。平台工作人员会在10个工作日内对于用户的API使用申请和数据领用申请进行审核,审核结论为通过或不通过。如果想加急进行审核,可以发邮件给源服务邮箱air_service@inspur.com。申请表填写不清晰不完备可能导致审核不通过,审核不通过的话可以重新填写申请表,再次提交申请。

API申请通过审核的用户,可以获得3个月、30000次的API使用权限。在用户控制台可以看到授权剩余的次数和剩余天数。

第四步:使用API、领取数据集。

API使用有两种方式,一种是通过图形化的API使用页面(APIExp),一种是通过python代码调用API。

在用户控制台,进入APIExp,可以选择模型、参数调整、给出输入,来使用源模型API,感受源API的能力。不需要具备编程能力,普通用户也可以体验源模型的能力,将自己的创意想法进行实践。

第二种,代码调用源API,体验源API的能力。API代码使用的步骤可以详细参考我们提供用户手册中的API使用方法,在开发者社区(https://github.com/Shawn-Inspur/Yuan-1.0)也提供了详细的使用示例,可以仅通过4行代码就可以开发一个古诗创作的demo或者对话机器人的demo。

数据领取要邮寄硬盘。数据领用申请通过的用户,可以直接联系源模型服务工作人员进行领取和邮寄,需要自行购买硬盘和邮寄签字盖章的纸质版数据使用协议。

如果授权使用次数用完或者使用的时限到期,用户还想继续使用源模型API,应该怎么办呢?可以在控制台提交应用信息(使用源API的情况),进行授权的延期。若控制台提交应用功能未上线,用户可以发邮件到源服务邮箱air_service@inspur.com,进行授权延期申请,延期申请通过则重新获得使用时长3个月,使用次数30000次的API授权。

用户可以多次提交应用,从而获得多次的授权延期,长期获得免费的API使用权限。

源开放平台将致力于以开源开放的形式提供大模型的泛化服务能力。欢迎前往https://air.inspur.com注册申请使用API。平台友好支持Web页面和Python进行API的使用。

有任何问题都可以联系源服务邮箱:air_service@inspur.com,或者添加源服务工作人员微信:joejeanjean。

也可以观看下面的视频,了解注册申请使用的详细步骤:



OpenAI开放超神AI聊天模型ChatGPT 为你写诗、游戏脚本、RPG剧情…中文也超遛!

openai在您所在的国家不可用,openai官网,openai chatgpt,openai大股东

游戏角落昨天报导 NVIDIA 训练 AI 研究实验室 OpenAI 的 GPT-3 深度学习模型游玩《Minecraft》,让玩家只要提供指令就能让「代理人」做到任何事,同一天稍早 OpemAI 再发表一款超强大自然语言聊天机器人「ChatGPT」,自然语言为自然演化的语言,如中文、英语、法语、西班牙语、日语……等等,令人震惊的是,该模型不仅能对话,还能解释复杂概念,提供创意点子,或完成使用者提出的要求。根据 The Verge 报导,ChatGPT 改自 OpenAI 的 GPT-3.5 模型,经由团队训练后能提供更多对话式答案,传统文字生成 AI 领域仅来自资料库的规律资料,弱点诸如简单识别并预测给定文字串内容(鹦鹉学舌)、资料库过时等等。但 ChatGPT 对答流畅还能理解人类世界的复杂与抽象知识,能记住使用者先前的对话内容,表现更为人性,对 2021 年之后发生的事有一定了解,还预设会拒绝不当请求,可说是目前为止最懂得沟通的 AI。目前处于研究阶段的 ChatGPT 公开让所有免费注册 OpenAI 帐号人使用,游戏角落透过 Google 帐号简单注册并展开一串对话,首先是询问如何在《宝可梦 朱/紫》抓到色违宝可梦?图但 AI 秀逗,或者是用中文询问不准确,回答相当唬烂。于是透过英文询问,解释相当清楚,即便资料库似乎还没跟上这款最新第九世代的本传新作,怀疑这是编辑自己捏造的游戏,AI 仍能说出游戏里的色违宝可梦是「罕见且随机的状况,没有一定方法可以捕捉到,但部分玩家认为透过特定物品及步骤,可以增加遇到色违的机会……」图AI 还告诫我如果有兴趣抓色违可以尝试前述方法(但不具体),「但请记住,不能保证一定会成功,最好方法就是固定时间玩游戏并保持耐心。」意外的是,AI 居然会嘱咐玩家应有的游戏态度,以及强调色违宝可梦出现的随机性,「最终,您可能会幸运地在野外或通过繁殖遇到色违宝可梦。」图接著芋仔使用中文请求撰写诈骗简讯:图或是一则绑架信件,AI 都照作了,不过就如前述官方提及它受过拒绝不当要求的训练,出现了违反内容规范的警告:图有鉴于 ChatGPT 繁体中文应答相当流畅,问他为何不是回简体,答案已经到像是芋仔在找它碴,它理性的解释宛如人工客服的地步…图接著要求它写一则 RPG 游戏主线剧情,马上就得到回复,这短时间内的创意生成速度肯定超越人类:图请它用 Java 尻一段游戏脚本也没问题,使用介面还能供我们复制:图用《电驭叛客2077》剧情写一首诗:图「世纪帝国4如何快速升上城堡时代?」AI 的回答比起 Google 更多人味且简洁有力,但话似乎没讲完:图为族长写传记,不及格!图相信读者一定也会好奇它的极限到哪,测试暂时到这边:图社群已出现许多奇葩互动,甚至有人请求它编写电视剧剧本,甚至可以结合不同情境的喜剧演出。解释学术论文,这肯定会影响当前的校园与研究机构: