OpenAI发布多目标强化学习仿真环境，训练智能体完成连续控制任务。

热门文章 2023-02-15 10:37:05 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

openai教程,如何使用openvino实现目标检测项目,openai baseline使用,openai 入门

图片：unsplash 原始资料来源：arXiv 作者：Matthias Plappert、Marcin Andrychowicz、Alex Ray、Bob McGrew、Bowen Baker、Glenn Powel、Jonas Schneider、Josh Tobin、Maciek Chociej、Peter Welinder、Vikash Kumar、Wojciech Zaremba 《湖泊世界》编译：嗯~阿童木、卡布达、伊娃导语：近日，OpenAI发布了“多目标强化学习”的研究报告。基于现有的机器人硬件，介绍了一套具有挑战性的连续控制任务(与OpenAI Gym集成)。这些任务包括用取物机械手推动、滑动、拾取和放置物体，以及用影子灵巧手操纵手中的物体。所有任务都有稀疏的二元奖励，并遵循多目标强化学习(RL)框架，在该框架中，代理被告知如何处理额外的输入。同时，在研究需求部分，提出了一套改进RL算法的具体研究思路，其中大部分都与多目标RL和后见之明经验重放相关。在本文的研究需求部分，提出了一套改进RL算法的具体研究思路，其中大部分涉及到多目标RL和后见之明经验重放。环境所有环境都作为OpenAI Gym(布罗克曼等人，2016年提出)的一部分发布，MuJoCo(托多洛夫等人，2012年提出)物理引擎用于快速准确的模拟。关于这个新环境的视频，请参见：https://www.youtube.com/watch v=8 NP 3 EC _ ptfo。图1:四个建议的提取环境：FetchReach、FetchPush、FetchSlide和FetchPickAndPlace。获取环境取物环境基于7自由度取物机械臂，该机械臂具有带两个手指的平行手爪。它们与Andrychowicz等人(2017年)使用的任务非常相似，但我们增加了一个额外的任务，拾取和放置任务略有不同。在所有提取任务中，目标是三维的，并描述了对象的期望位置(或末端效应器)。奖励是稀疏的，二进制的：如果物体位于目标位置(在5 cm的容差范围内)，代理获得奖励0，否则获得奖励-1。动作是四维的：三维空间在笛卡尔坐标中指定了手爪想要的运动，最后一个维度控制手爪的开合。在将控制权交还给代理之前，我们在接下来的20个模拟器步骤中应用相同的操作(每个t=0.002)，即代理的动作频率为f=25Hz。观测结果包括手爪的笛卡尔坐标、其线速度以及机器人手爪的位置和线速度。如果一个物体存在，我们也会用欧拉角包括它的笛卡尔位置和旋转，它的线速度和角速度，以及它相对于手爪的位置和线速度。 FetchReach:任务是将抓取器移动到目标位置。这个任务非常容易学习，因此它是一个合适的基准，可以确保新想法的有效性。 FetchPush:在机器人前面的桌子上放一个盒子，任务是将它移动到桌子上的目标位置。机器人的手指被锁住，以防止抓取。习得的行为通常是推和滚的混合。 FetchSlide:一个冰球放在一个又长又滑的桌子上，目标位置在机器人够不到的地方，所以它必须用这样的力撞击冰球，使其滑动，然后由于摩擦力停留在目标位置。 FetchPickAndPlace:任务是抓取一个盒子，并将其移动到目标位置，目标位置可能位于桌面上，也可能在桌面上方的空中。图2:影子灵巧手的四种环境：HandReach、HandManipulateBlock、HandManipulateEgg和HandManipulatePen。手部环境这些环境基于Shadow灵巧手，它是一种具有24个自由度的人形机器人手。在这24个关节中，20个可以独立控制，其余的是耦合关节。在所有人工任务中，奖励都是稀疏的、二元的：如果已经达到目标(在某个任务的容差范围内)，则代理人获得奖励，奖励值为0；否则为-1。运动是20维的：我们对手的所有非耦合关节使用绝对位置控制。在将控制权交还给代理之前，我们在后续的20个模拟器步骤中应用相同的动作(每个t=0.002)，即代理的动作频率为f=25Hz。结果包括24个机器人关节的位置和速度。对于被操作的物体，我们还包括它的笛卡尔位置和用四元数表示的旋转(因此是7维)，以及它的线速度和角速度。在到达任务中，我们包括所有5个指尖的笛卡尔位置。 HandReach:一个简单的任务，其目标是15维的，包含手的每个指尖的目标笛卡尔位置。与FetchReach任务类似，该任务相对容易学习。可以说，如果指尖与其期望位置之间的平均距离小于1cm，则认为已经实现了这个目标。在方块操作任务中，一个正方形被放在你的手掌上。任务是操纵盒子达到目标姿势。目标是7维的，包括目标位置(用笛卡尔坐标表示)和目标旋转(用四元数表示)。我们包含了一些难度系数递增的变体： HandManipulateBlockRotateZ:围绕块的z轴随机旋转目标。没有目标位置。操纵blockrotateparallel:围绕块的z轴的随机目标旋转，以及x和y轴的轴对齐目标旋转。没有目标位置。 HandManipulateBlockRotateXYZ:块的所有轴的随机目标旋转。没有目标位置。 HandManipulateBlockFull:块的所有轴的随机目标旋转。随机目标位置。可以说，如果块的位置与其期望位置之间的距离小于1cm(仅对于完全变型)，并且旋转差小于0.1弧度，则认为已经实现了目标。 HandManipulateEgg:这里的目标类似于块操作任务，但是使用了一个蛋形的对象来代替块。我们发现，物体的几何形状会对问题的严重程度产生显著影响，鸡蛋可能是最简单的物体。目标是7维的，包括目标位置(用笛卡尔坐标表示)和目标旋转(用四元数表示)。我们涉及了许多难度系数递增的变体：手动操作：围绕鸡蛋的所有轴随机旋转目标。没有目标位置。 HandManipulateEggFull:围绕蛋的所有轴随机旋转目标。随机目标位置。可以说，如果蛋的位置与其期望位置之间的距离小于1cm(仅针对完全变型)，并且旋转差小于0.1弧度，则认为已经实现了这个目标。这是另一个操纵任务，这次用的是笔，而不是积木或鸡蛋。握笔很难，因为很容易从手上掉下来，很容易碰撞卡在其他手指之间。目标是7维的，包括目标位置(用笛卡尔坐标表示)和目标旋转(用四元数表示)。多目标环境界面：所有环境都使用描述任务预期结果的目标。例如，在FetchReach任务中，所需的目标位置由三维目标来描述。虽然我们的环境与OpenAI Gym API完全兼容，但我们对它进行了轻微的扩展，以支持这个新环境。所有环境都扩展了这个新引入的gym GoalEnv。目标的感知观察空间：第一，对观察空间施加约束。更具体地说，它要求观察空间的类型是gym.spaces.Dict space，至少有以下三个关键字：观察：对环境的实际观察，比如机器人的状态，物体的位置。 Desired_goal:代理必须实现的目标。对于FetchReach，这将是一个3D目标位置。成就目标：代理的当前目标。对于FetchReach，这是机器人末端执行器的位置。理想情况下，这将是一样的预期目标尽快。打开奖励功能：第二，我们打开奖励功能，允许使用不同的目标重新计算奖励。这是HER式算法代替target的必要条件。与标准RL算法的兼容性：由于OpenAI Gym通常在大多数RL算法框架和工具(如OpenAI基线)中得到支持，我们提供了一个简单的包装器，可以将新的基于字典的目标观察空间转换为更常见的数组表示。研究要求决定哪个问题值得研究可能是研究中最难的部分。我们在下面提出了一系列的研究问题，我们相信这些问题将导致广泛适用的RL改进。对于每个问题，我们至少提出一个可能的解决方案，但是解决许多问题需要发明新的想法。自动后见之明目标生成：由Andrychowicz等人(2017)提出，用于她的目标是使用人工启发法生成的，例如，在场景中以随机的未来时间步长回放已实现的目标。相反，我们可以了解哪些目标对回放最有价值。它们可以从训练中已经达到或看到的目标中选取，也可以由单个神经网络生成，作为输入转换目标。最大的问题是如何判断哪些目标最有播放价值。一种选择是训练发电机使贝尔曼误差最大化。这和优先体验重放有许多相似之处，我们希望本文中的一些技术对此有用。无偏的HER:HER以无原则的方式改变了回放(状态，动作，下一个状态，目标)元组的联合分布。理论上，这可能会导致无法在非常随机的环境中进行训练，尽管我们在实践中没有注意到这一点。考虑这样一个环境，其中有一个特殊的动作，使代理人进入随机状态，然后场景结束。如果我们回放未来代理人实现的目标，这个行动在事后看来是完美的。如何避免这个问题？一种可能的方法是使用重要性采用来消除采样偏差，但是这可能导致过度的梯度偏差。更丰富的价值函数：UVFA(Schaul等人在2015年提出)将价值函数扩展到多个目标，TDM(Pong等人在2018年提出)将价值函数扩展到不同的时间范围。虽然学习功能更复杂，但这两项创新可以让训练过程变得更简单。如何改进代价函数来提高采样效率？二元奖励的折扣系数和成功门槛呢？更快的信息传播：大多数先进的off-policyRL算法使用一个目标网络来稳定训练过程(例如：DQN(由MNIH等人在2015年提出)或DDPG(由Lillicrap等人在2015年提出))。但这是以限制算法的最大速度为代价的，每次目标网络更新发送的信息都会及时回到上一步(如果使用一步自举)。我们注意到，在训练初期，DDPG赫尔的学习速度往往与目标网络更新的频率成正比，但过高的目标网络更新频率/幅度会导致训练不稳定，最终表现不佳。应该如何调整目标网络的更新频率(或者更新网络时使用的移动平均系数)来最大化训练速度？除了简单地替换或移动平均时间之外，是否有更好的方法来更新目标网络？有没有其他不受学习速度限制的稳定训练的方法(比如：Clipped Objective(舒尔曼等人2017年提出的)类似于PPO中使用的目标)。她的多步回归):她的生成的是保单外数据，所以我们不能使用多步回归，除非采用重要性抽样等修正因子。虽然有许多解决方案来处理数据的离策(例如Munos等人在2016年提出的)，但当训练数据远未处于离策状态时，这些解决方案是否会有优异的性能尚不清楚。另一种方法是利用多步最优收紧不等式(何等2016年提出)。使用多步返回可能是有益的，因为引导频率的降低可能导致更小的偏差梯度。此外，它还加速了相关信息的反向传递，所以我们的实验常常是DDPG娅训练的限制因素。 On-policy HER:如何将她与PPO等最先进的on-policyRL算法(2017年由舒尔曼等人提出)相结合？Rauber等人在2017年提出了香草政策梯度的一些初步结果，但这种方法需要在更具挑战性的环境中进行测试(如本文提出的环境)。一个可能的选择是使用与类似的技术(由顾等人在2017年提出)。把她和RL的最新改进结合起来：看看RL最近的改进和她结合起来会很有意思。潜在的改进清单很长，如：优先体验回放(Schaul等人在2015年提出)、分布式RL(belle mare等人在2017年提出)、熵正则化RL(Schulman等人在2007年提出)或逆向课程生成(Florensa等人在2017年提出)。动作频繁的RL:RL对采取动作的频率非常敏感，这也是Atari上通常采用跳帧技术的原因(MNIH等人在2015年提出)。在连续控制领域，随着采取行动的频率趋近于无穷大，绩效逐渐趋近于零，这是由两个因素造成的：不一致的探索和引导更多的时间及时传播关于回报的信息。如何设计一个样本有效的RL算法，即使在动作频率接近无穷大时也能保证其性能。探索过程中的参数噪声(Plappert等人在2017年提出)可以解决探索问题，多步返回可以实现更快的信息传播。其他方法可以是自适应的和可学习的跳帧。原文链接：https://arxiv.org/pdf/1802.09464.pdf

openai创始人谈chatgpt 马斯克 openai推付费版chatgpt

opensea创始人,openai公司,open公司,openai 官网

OpenAI官宣：新订阅计划ChatGPT Plus每月收费20美元

2月1日，OpenAI官宣，推出新的订阅计划ChatGPT Plus。ChatGPT Plus收费为每月20美元，通过订阅服务用户将获得：

ChatGPT的常规访问，即使在高峰时段
更快的响应时间
优先使用新功能和改进

据了解，ChatGPT Plus可供美国用户使用，OpenAI将在未来数周开启邀请。该组织计划很快将准入和支持范围扩大到更多国家和地区。

同时，该组织表示，将继续提供ChatGPT的免费访问。通过提供此订阅定价，其将能够帮助支持尽可能多的人免费访问。

该组织还计划根据用户的反馈和需求改进和扩展此产品。其还将很快推出(ChatGPT API等待列表)，并积极探索低成本计划、业务计划和数据包的选项，以提高可用性。

就在前一天，1月31日OpenAI宣布了区分人类作品和 AI 生成文本的识别工具上线。该组织声称，分类器虽不能完全可靠地检测所有人工智能编写的文本，但好的分类器可以为人类提供辅助，以减轻压力。

该组织表示，通过对英语文本识别的评估，分类器能正确地将26%的人工智能书写文本识别为“可能是人工智能书写的”，而错误地将人类书写文本标记为9%的人工智能。该组织的分类器的可靠性通常随着输入文本长度的增加而提高。与此前发布的分类器相比，新的分类器对来自最新AI系统的文本的可靠性要高得多。

OpenAI的分类器有许多重要的局限性。它不应被用作主要的决策工具，而应作为识别部分文本来源的其他方法的补充。

责编：Zengde.Xia返回搜狐，查看更多

责任编辑：

OpenAI官方推出AI生成内容识别器，成功率26％，不如论文查重工具

ocr ai 识别,ai识别app,ai 识别,ai识别模块

机器之心报道

编辑：泽南、杜伟

识别 ChatGPT 生成的内容，OpenAI 亲自上阵了。

很多人也许已经忘记，ChatGPT 正式发布时间是去年 11 月底，到现在才刚刚两个月，但它掀起的热潮却已引发科技公司纷纷跟进，催生了独角兽创业公司，还让学术界修改了论文接收的要求。

在 ChatGPT 引发 AI 领域「是否要禁用」大讨论之后，OpenAI 的真假鉴别工具终于来了。

1 月 31 日，OpenAI 官宣了区分人类作品和 AI 生成文本的识别工具上线，该技术旨在识别自家的 ChatGPT、GPT-3 等模型生成的内容。然而分类器目前看起来准确性堪忧：OpenAI 在博客里指出 AI 识别 AI 高置信度正确率约为 26%。但该机构认为，当它与其他方法结合使用时，可以有助于防止 AI 文本生成器被滥用。

「我们提出分类器的目的是帮助减少人工智能生成的文本造成的混淆。然而它仍然有一些局限性，因此它应该被用作其他确定文本来源方法的补充，而不是作为主要的决策工具，」OpenAI 发言人通过电子邮件对媒体介绍道。「我们正通过这个初始分类器获取有关此类工具是否有用的反馈，并希望在未来分享改进的方法。」

最近科技领域随着围绕生成式 AI，尤其是文本生成 AI 的热情正在不断增长，但相对的是人们对于滥用的担忧，批评者呼吁这些工具的创造者应该采取措施减轻其潜在的有害影响。

面对海量的 AI 生成内容，一些行业立刻作出了限制，美国一些最大的学区已禁止在其网络和设备上使用 ChatGPT，担心会影响学生的学习和该工具生成的内容的准确性。包括 Stack Overflow 在内的网站也已禁止用户共享 ChatGPT 生成的内容，称人工智能会让用户在正常的讨论中被无用内容淹没。

这些情况突出了 AI 识别工具的必要性。虽然效果不尽如人意，但 OpenAI AI 文本分类器（OpenAI AI Text Classifier）在架构上实现了和 GPT 系列的对标。它和 ChatGPT 一样是一种语言模型，是根据来自网络的许多公开文本示例进行训练的。与 ChatGPT 不同的是，它经过微调可以预测一段文本由 AI 生成的可能性 ―― 不仅来自 ChatGPT，也包括来自任何文本生成 AI 模型的内容。

具体来说，OpenAI 在来自五个不同组织（包括 OpenAI 自己）的 34 个文本生成系统的文本上训练了 AI 文本分类器。这些内容与维基百科中相似（但不完全相同）的人工文本、从 Reddit 上共享的链接中提取的网站以及为 OpenAI 文本生成系统收集的一组「人类演示」配对。

需要注意的是，OpenAI 文本分类器不适用于所有类型的文本。被检测的内容至少需要 1000 个字符，或大约 150 到 250 个单词。它没有论文检测平台那样的查重能力 ―― 考虑到文本生成人工智能已被证明会照抄训练集里的「正确答案」，这是一个非常难受的限制。OpenAI 表示，由于其英语前向数据集，它更有可能在儿童或非英语语言书写的文本上出错。

在评估一段给定的文本是否由 AI 生成时，检测器不会正面回答是或否。根据其置信度，它会将文本标记为「非常不可能」由 AI 生成（小于 10% 的可能性）、「不太可能」由 AI 生成（在 10% 到 45% 之间的可能性）、「不清楚它是否是」AI 生成（45% 到 90% 的机会）、「可能」由 AI 生成（90% 到 98% 的机会）或「很有可能」由 AI 生成（超过 98% 的机会）。

看起来和图像识别的 AI 很像，除了准确程度。根据 OpenAI 的说法，分类器错误地将人类编写的文本标记为 AI 编写的文本的概率为 9%。

一番试用之后，效果的确不大行

OpenAI 宣称其 AI 文本分类器的成功率约为 26％，一些网友上手试用之后，发现识别效果果然不行。

知名 ML 和 AI 研究人员 Sebastian Raschka 试用之后，给出了「It does not work」的评价。他使用其 2015 年初版的 Python ML 书籍作为输入文本，结果显示如下。