仅需人类示范一次 OpenAI靠增强学习就能让AI青出于蓝胜于蓝

热门文章 2023-02-13 12:30:30 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

仅需人类示范的动物

人工智能越来越会玩游戏了，除了Dota2全人工智能代理人（Agent）OpenAI Five团队已经可以打败人类外，OpenAI的最新研究，人工智能代理人只要看过人类示范游玩蒙特祖马的复仇（Montezuma’s Revenge）一次，便能学习游玩技巧并获得74,500的高分。而与其他研究不同的是，OpenAI不再要求代理人（AI玩家）模仿人类行为，而是更主动的对取得高分的行为做优化。

OpenAI使用了简单的算法，只要从人类游戏示范中挑选一段适当的状态（阶段），这个状态指的是某一段游戏示范的历程，代理人再接着状态后继续游玩，并在示范过程使用近端政策优化（Proximal Policy Optimization，PPO）的增强学习，如此就能达到与人类相当的游玩程度。

OpenAI提到，要解决使用增强学习的问题，有两个重点，第一是属于探索问题，为了找出一系列趋向正面奖励的移动，第二则是学习问题，代理人要可以记得移动串行，并在些微不同的情况下稍微改变策略。

而探索是一件困难的事，一般常用的策略是，借由采取随机移动以政策梯度（Policy Gradients）或是Q-learning这类无模型的增强学习方法进行探索。最佳的情况为，刚好随机选择到了有益的移动而获得奖励，那这些行动便会被增强，代理人未来将有更大的机率选择这些有益的移动。当随机移动的奖励足够频繁，随机移动便更容易以合理的机率获得奖励。但OpenAI指出，像蒙特祖马的复仇这类复杂的游戏，需要比较长串行的具体移动才能获得奖励时，要随机到特定串行的移动组合简直不可能发生。

尽管无模型增强学习适合短串行移动，难以应对长串行的移动，OpenAI表示，他们的策略则是将大任务拆成许多子任务，这些子任务就可以用短串行移动解决。 OpenAI都以人类的示范，开始每一个增强学习的章节（Episode）。

在训练初期，代理人在示范结束时，开始每一增强学习训练章节，一旦代理人能在至少20％剩余游戏部分中，击败或是与示范者的得分平手，便开始把代理人游戏的起始点往前移动，这个过程不停重复，直到代理人不再需要使用示范，而这也表示这个代理人已经能够打败人类，最糟的状况也只会跟人类打成平手。

通过渐渐的把代理人游戏起始点往前移的过程，代理人已经能够解决大部分剩余的游戏，便能确保其遇到的都是简单的探索问题，OpenAI提到，他们将增强学习的问题解释为动态程序设计的一种形式，也就是当要从由N个移动组合而成的特定串行获得奖励，则这个串行能以线性而非指数时间被学习。研究人员指出，代理人有人类示范，对于成果好坏至关重要。

由于Google旗下DeepMind，最近也展示了人工智能游玩蒙特祖马的复仇这款游戏的成果，OpenAI表示，DeepMind是以模仿学习（Imitation Learning）来学习游戏，这个方法的优点是，他们不需要对执行环境进行控制，不需要特别设置游戏的状态（阶段），而且不会假设代理人会遭遇到人类示范中的所有游戏状态，但缺点就在于，这方法让代理人去学习人类的行为，而这也只会让代理人的游戏技巧顶多跟人类一样。

OpenAI的方法直接对游戏的目标，也就是分数做优化，而非仅要代理人模仿人类行为，OpenAI强调，他们的方法不会过度适应潜在的次优示范，并可以在多玩家游戏中仍然获得优势。该方法所使用的PPO与OpenAI Five相同。这个研究的价值在于，允许代理人偏离示范行为，因此有机会考虑人类示范者没有想过的解决方案。返回搜狐，查看更多

责任编辑：

ai智能配音是怎么创作的 ai智能生成音频网站

视频ai配音怎么制作,ai合成配音,ai人工配音,ai配音怎么做

人工智能（AI）正在越来越多地应用于音乐、电影和绘画等艺术领域。在当下的应用中，AI已经可以影响音乐制作过程的各个方面，包括音乐生成、音频掌握等。

而这为业余音乐家提供了一种创新的方式，帮助他们改进创作过程。跟AI绘画一样，音乐产业正在将AI作为一种辅助工具，而不是代替人类艺术家。

许多专家、研究人员、音乐家和唱片公司都在寻找将人工智能技术融入音乐的新方法。一些软cGUOExjLM件可以创作出不同作曲家风格的作品，而另一些则使用机器学习算法生成全新的歌曲和声音。

(资料图片)

这些工具的另一个优点是，许多都是开源的，这意味着任何人都可以访问它们，并开始改进现有的技术。

下面，让我们来看看市场上最好的AI音乐生成器:

1. Amper Music

网址:ampermusic.com/

说到AI音乐生成器，最推荐的是Amper music，它是最容易使用的AI音乐生成器之一，对于那些开始尝试AI音乐的人来说，它是一个完美的选择。

Amper不需对音乐理论或作曲知识有深入的了解就能使用，因为它可以基于预先录制的样本创建音乐曲目。然后这些声音被转换成真实的音频，可以通过音乐键、节奏、单个乐器等进行编程客栈修改。例如，你可以调整整个乐器，达到你想要达到的情绪或氛围。

对于希望为游戏、电影或播客开发配乐和声音的内容创作者或个人来说，基于云的平台是一个很好的选择。在付费版中，还有更多艺术风格可供选择。

以下是Amper Music的一些主要优势:

广泛android应用领域（播客、电影和视频游戏）快速创建音乐

数百万的样品和各种各样的仪器

改进音乐制作的工具

基于云计算平台

2. AIVA

网址:aiva.ai

这个AI音乐生成器开发于2016年，随着人工智能技术不断得到改进，可以为广告、视频游戏、电影等创作配乐。

AIVA的第一个出版作品名为《钢琴独奏作品1》（Opus1for Piano Solo），还发行了一张专辑，并为一款电子游戏作曲。该工具使用户可以从零开始开发音乐，还可以帮助对现有歌曲进行改进，而不必担心音乐授权过程。

使用AIVA，您可以通过首先选择一个预设的风格轻松生成多种类型和风格的音乐。当涉及到当前的音乐，你可以使用AIVA应用编辑。

以下是AIVA的一些主要优势:

许多预设和指定的音乐格式

功能免费版

能够编辑原声

修改现有的轨迹

3.Ecrett Music

网址:ecrettmusic.com

Ecrett Music可以让任何人通过数百小时的现有歌曲训练生成音乐片段。该工具拥有直观的界面和大量的场景、情感和类型的选择使它成为业余和专业人士的绝佳选javascript编程客栈择。

这款AI音乐生成器支持为任何视频或游戏创作音乐，它还附带一个免版税的音乐生成器，以避免与授权有关的问题。

使用这个工具，在点击“创建音乐”之前，首先从场景、情绪和类型中至少选择一个选项。然后，该工具根据选择类型创建音乐，即使使用相同的设置，每次都可以生成不同的音乐。

只需点击几下，你还可以自定义参数，包括一些乐器包括旋律，背景，贝斯和鼓。

用Ecrett创建音乐后，可以使用收藏夹、下载历史记录、视频上传等进行管理。

以下是Ecrett Music的一些主要优势:

提供试用版

直观全面的用户界面

音乐创作操作简单

提供多个订阅计划

4. Soundraw

网址:boomy.com

AI音乐生成器的另一个很好的选择是Soundraw，它可以让你使用人工智能创建的短语和其他许多功能来定制一首歌曲。该工具依赖于人工智能和手工工具的组合，而这能让大家能够轻松生成和定制新音乐。

该平台有一个定制功能，允许即兴创作和调整一首音乐。虽然免费用户可以使用音乐生成器创建音乐，但只有付费用户才能无限下载。

以下是Soundraw的一些主要优势:

易于使用的

结合人工智能组合和手动工具

插件兼容谷歌Chrome和Premiere Pro

付费可无限下载

5. Boomy

网址:boomy.com

Boomy是一款在扩大音乐创作渠道和降低音乐制作门槛方面发挥关键作用的工具，它可以让你在几秒钟内创作出原创歌曲。然后，您可以提交这些歌曲，以便从各种服务中获得流媒体收入，这使其成为一个非常独特的工具。

在设置几个过滤器并点击“创建歌曲”后，该工具的创造性人工智能会在几秒钟内编写并生成一首完整的歌曲。然后您将可以选择拒绝或保存它。当你按照这个过程操作时，Boomy的AI会为你开发一个个性化的档案，帮助你创造最好的音乐。

以下是Boomy的一些主要优势:

提供免费版和订阅版

通过提交音乐在YouTube和TikTok等平台上赚取收入

访问许多特性和功能

个性化的配置文件

6. OpenAI――MuseNet

网址:openai.com/blog/musenet/

人工智能行业最知名的公司之一OpenAI拥有自己的在线人工智能音乐生成工具MuseNet。据该公司介绍，该工具可以生成多达10种不同乐器的歌曲和多达15种不同风格的音乐。

OpenAI MuseNet的另一个独特之处在于，它可以模仿像莫扎特这样的著名作曲家，也可以模仿当今的顶级作曲家。该工具基于于一个深度神经网络，根据从互联网上获取的数据进行训练，这使它能够在很长一段时间内评估音乐。

需要注意的是，虽然MuseNet在Soundcloud上有许多示例，并且你可以从该工具中欣赏许多人工智能生成的音乐，但它仍然不支持个人使用，创作自己的音乐。

以下是MuseNet的一些主要优势:

有许多不同的样品可供选择

模仿古代和现代作曲家

深层神经网络

长时间内评估音乐

7. Amadeus代码

网址:amadeuscode.com/app/en

最后推荐的AI音乐生成器是Amadeus Code，它可以被任何音乐爱好者使用。这款IOS的应用程序可以让你在几分钟内创造出新的旋律。

Amadeus Code依靠的是一个AI引擎，它包含了一些世界上最著名的歌曲的和弦进程。然后用户可以使用这些来创建音乐作品的新结构。

这款AI音乐生成器还支持使用手势来创建全新的歌曲，或重新创建之前创作的歌曲的特定片段。你可以将音频和MIDI文件导出到音频编辑软件，但必须购买所有想保存的歌曲。

以下是Amadeus Code的一些主要优势:

可以导出为音频和MIDI文件

ios系统应用

在几分钟内创造出新的旋律

用手势创造全新的歌曲

注：本文内容参考自unite.ai。

[责任编辑：editor]

[关键词：] 人工智能人工智能技术神经网络

从OpenAI看深度学习研究前沿

openai训练,openai环境

想必很多知友都知道OpenAI这家初创公司。OpenAI是2015年底刚成立的人工智能公司，由Elon Musk领投，号称有10亿美金的投资额，由几位人工智能的顶尖好手组成。这基本上意味着一个新的DeepMind公司诞生，只不过这次OpenAI是一个非营利性的研究机构，不属于任何大公司。

因为OpenAI的研究内容很大程度上代表着人工智能的研究方向，由于Elon Musk的影响力，公司非盈利的性质以及地处加州硅谷这种黄金地段，未来聚集更多顶尖人才的可能性很大，成为一个和DeepMind公司抗衡的可能性非常大。OpenAI的出现将使顶级人工智能的研究不至于被Google，Microsoft，Facebook，Baidu，IBM，Nvidia等等行业巨头垄断。

OpenAI 网址：www.openai.comOpenAI AMA: AMA网址

OpenAI的很多成员恐怕大家都比较熟悉，有Hinton的学生 Ilya Sutskever，有李飞飞的学生 Andrej Karpathy，有Yann Lecun的学生Wojciech Zaremba，有Pieter Abbeel的学生John Schulman，也就是Andrew Ng的徒孙了。最近Ian Goodfellow大牛也加入了，Deep Learning那本书就是他主笔的。而最新的消息 Pieter Abbeel，深度增强学习的大牛，也加入了OpenAI。

OpenAI的核心目标和DeepMind公司一样，就是Solve Intelligence。解决智能，然后服务全人类，并且通过公开的方式来防止人工智能威胁。对于防止人工智能威胁的方法这里我们就不讨论了，我们更关心的是：

OpenAI具体在研究什么？
为什么研究这些问题？
这些问题是解决人工智能最关键的问题吗？

本文尝试分析以上的问题。

从OpenAI AMA中可以看到OpenAI提了三点研究方向：

Training Generative Models
algorithms for inferring algorithms from data
new approaches to reinforcement learning

这基本代表了以下三个研究主题：

Deep Generative Model 深度生成模型
Neural Turing Machine 神经图灵机
Deep Reinforcement Learning 深度增强学习

那么这三个方向的研究的意义在哪里呢？

深度生成模型的研究目标是通过学习现有的数据生成新的数据，即包含监督学习，也包含无监督学习。比如下图的例子来自otoro.net，通过学习文字，然后自动生成新的文字，而这些文字人类几乎看不出区别。

比较有名的例子就是在艺术上的应用，比如Deep Dream，Neural Art，这些方法能够提取绘画艺术风格的特征，然后将特征应用在新的图片上从而产生新的图像。

除了上面的例子，还有Sequence to Sequence Learning,从序列到序列的学习。翻译：输入英文，输出中文。聊天：输入A对话，输出B对话。输入文字，输出手写字体。另一个比较重要的工作就是Deep Generative Adversarial Networks深度生成对抗网络，以及据此发展的DCGAN深度卷积生成对抗网络：

除了以上，深度生成模型也包含one shot learning的研究，也就是看一眼图像，就衍生出其变种,最新的进展是DeepMind的 One-Shot Generalization in Deep Generative Models ：

那么这方面的研究意义在哪呢？我的观点是探索人工智能的感知理解能力。一方面是不同类型数据的感知，一方面是快速感知与学习。对于不同类型数据的感知。以前只是图像识别，现在开始识别艺术特征，也可以识别文字信息的特征用于翻译对话等等。然后我们发现RNN简直无敌，什么信息都能自动提取。对于同一个seq2seq网络，用在翻译，聊天，理解炉石传说的卡片。。。 RNN可以理解任意形式的内容。另一方面我们希望能够想人类一样快速感知，而不需要巨量的训练数据，也就是看一眼就认得。

理论上基于RNN计算机可以学习任何东西，那么当然也包括算法和程序了。所以Neural Turing Machine是目的是让计算机能够学习程序，从而具备推理能力。举个栗子：让计算机看很多加法运算，然后学会加法，这大概是最简单的例子。但基本是这个意思。那么Neural Turing Machine需要具备外部记忆，不过RNN，LSTM本身就具备记忆功能。想象一下未来的电脑真的变成一个“脑”：一个巨大的神经网络来实现输入输出。。

上一类研究问题是实现AI更强的感知能力，那么这一类问题可以说更变态了，直接要实现AI不仅能理解还能推导。当然本质上和第一类问题是一样的。感知也是一种理解。归根到底都是提取某种特征或者说知识信息,并且具备生成能力。依然是用RNN，目前最新的是基于增强学习的NTM。也就是说也通过自学习来增强理解。而ICLR 2016的最佳论文则通过神经网络实现程序的解释器：

NEURAL PROGRAMMER-INTERPRETERS

这一部分的研究还面向公式的证明，但这次是使用神经网络来证明公式。其实只要能通过RNN使计算机具备理解能力，那么做什么事都一样。

上面两类问题主要依赖于现有知识，目的是使AI具备牛逼的学习能力。但是要使AI超越人类，就需要自我学习。大家知道AlphaGo能够自我学习，关键就是利用增强学习Reinforcement Learning.因此，这部分Deep Reinforcement Learning，重点在于使用增强学习实现自学习能力。有很多任务并不是提供很多的样本，特别在机器人控制领域。这类问题严重需要自学习能力。也就是类比为人类的运动能力。大家知道我们要打篮球打得好需要长期的练习，并不是看一眼就会的。因此，Deep Reinforcement Learning，通往AGI的终极武器，要使AI具备自我学习的能力，只要给定一个目标。

OpenAI发布的第一项工作就是OpenAI Gym，增强学习研究平台，一个类似于ImageNet的平台，大家提交结果进行增强学习任务的比较。

从以上的分析可以看出，人工智能的发展已经超出了很多人的想象，顶级人工智能学者的研究方向已经触及了强人工智能的实现核心了。OpenAI的研究方向的进展将使人工智能具备更强的学习能力，也可以说是智能水平！三种类型的研究方向其实都相互依赖，只是各有侧重，都非常酷。知友们，你们更感兴趣哪一个研究方向呢？

本文地址： https://www.xxs100.com//show-394571.html