三阶魔手魔人魔方7 步还原法伍六七哪只手拿魔刀千刃

热门文章 2023-02-15 04:14:04 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

三阶魔手魔人魔方,三阶魔手魔人魔方合集,三阶魔手魔人魔方第7讲,三阶手魔人魔方

新智元

2019-10-16 14:01

打开网易新闻查看精彩图片

新智元报道

来源：OpenAI

编辑：小芹，鹏飞

【新智元导读】OpenAI的机器手学会单手解魔方了，而且还原一个三阶魔方全程只花了4分钟，其灵巧程度让人自叹不如。你对机器手解魔方怎么看？来与AI大咖一起参与讨论吧～

给你一个魔方，只允许使用一只手，还时不时有人给你捣乱，你能在4分钟内还原它吗？我不能，两只手都不行。

OpenAI的仿人机器手Dactyl做到了。现在它转魔方的视频被疯狂刷屏，网友纷纷表示：人工智能机器人的一个新里程碑诞生了！这是机器人在机体灵活性以及机器学习软件方面的飞跃！

打开网易新闻查看精彩图片

打开网易新闻查看更多视频

4 分钟！OpenAI 的机器手学会单手解魔方了，完全自学无需编程

视频中我们看到，这只机器手虽然动作看起来有点笨拙，让人老是悬着一颗心仿佛魔方时刻都可能掉下来，但每一步动作最终都非常准确。

打开网易新闻查看精彩图片

视频的后半部分研究人员加大了难度：用布遮挡、使用工具干扰，机器手依然在忘我的玩着魔方。

打开网易新闻查看精彩图片

对于一个成年人来说，单手操控三阶魔方其实也不是一件容易的事情。而一只机器手能够达成这样的成就，真的让人印象深刻！

打开网易新闻查看精彩图片

MIT著名机器人专家和教授Leslie Kaelbling表示根本没想到它居然能够完成这项操作！密歇根大学机器操控专家Dmitry Berenson对此也给予肯定，并大加赞扬。

OpenAI训练类人机器手来解魔方的尝试，早在2017年5月就开始了。之所以对解魔方情有独钟，是因为研究人员认为， 如果能成功训练这样一只机器手来完成复杂的操作任务，就能为通用型机器人奠定基础。

在2017年7月，OpenAI在模拟环境中解决了魔方。但直到2018年7月，机器手解魔方仍然只能操作一个方块。现在，这个目标终于达成，请观看下面视频， 机器手在约4分钟的时间里成功还原了一个三阶魔方。

打开网易新闻查看更多视频

4 分钟！OpenAI 的机器手学会单手解魔方了，完全自学无需编程
这是机器手解魔方的完整过程，视频未经任何编辑

单手解魔方对人类来说都是一项具有挑战性的任务，孩子们需要几年的时间才能掌握所需的灵活性。机器手也仍没完美掌握，成功率只有60%。接下来，我们将详细描述OpenAI机器手解魔方的方法。单手解魔方：OpenAI新算法能无限生成仿真环境OpenAI使用 强化学习和Kociemba算法 训练神经网络来模拟解决魔方问题。

我们专注于一个机器目前难以掌握的问题： 感知和灵巧的操作。因此，我们训练神经网络来实现由Kociemba算法生成的还原所需的旋转和翻转。

打开网易新闻查看精彩图片

域随机化使得仅在模拟中训练的网络可以转移到真实的机器人上

任务中面临的最大挑战是在模拟环境中创建足够多样化的环境来捕捉真实世界的物理环境。对于像魔方和机器手这样复杂的物体来说，很难测量和建模摩擦、弹性和动力学等因素，而仅靠 domain randomization是不够的。

为了克服这一问题，我们开发了一种新的方法，称为 自动域随机化(Automatic Domain Randomization，ADR) ， 该算法能够无休止地在仿真中生成越来越困难的环境。

这样，我们就不必对现实世界做一个精确的建模，而且在模拟中学习到的神经网络可以迁移应用于现实世界。

ADR从一个单一的、非随机的环境开始，在该环境中，神经网络学习解魔方。随着神经网络性能的提高并达到性能阈值，域随机化的量也随之增加。这使得任务更加困难，因为神经网络现在必须学会将其推广到更随机的环境中。网络不断学习，直到再次超过性能阈值，然后更多随机化，重复这个过程。

打开网易新闻查看精彩图片

ADR适应魔方的大小

随机化的参数之一是魔方的大小(上图)。ADR从一个固定大小的魔方开始，随着训练的进行，逐渐增加随机化的范围。我们将同样的技术应用于所有其他参数，如魔方的重量、机器人手指的摩擦力和手的视觉表面材料等。因此，神经网络必须学会在所有这些越来越困难的条件下解魔方。

打开网易新闻查看精彩图片

自动与手动的域随机化

Domain randomization要求我们手动指定随机化范围，这很困难，因为太多的随机化会使学习变得困难，但太少的随机化则会阻碍迁移到真正的机器人。 ADR通过自动扩展随时间变化的随机范围来解决这个问题，不需要人工干预。ADR消除了对领域知识的需求，使我们的方法更容易应用于新任务。与手动域随机化相比，ADR还使任务始终具有挑战性，训练从不收敛。

在魔方块翻转任务中，我们将ADR与手动域随机化进行了比较，这个任务已经有了一个强大的基线。在开始阶段，ADR在真实机器人上的成功次数较少。但随着ADR增大熵值(熵值是环境复杂性的度量)，性能最终会比基线性能翻倍，无需人工调整。

稳健性测试

利用ADR，我们能够在仿真环境中训练神经网络，再用到真实机器手上解魔方。这是因为ADR将网络暴露于无穷无尽的随机模拟中。正是由于训练过程中的这种复杂性，使网络可以从模拟世界转移到现实世界，因为它必须学会快速识别和适应它所面对的任何物理世界。

打开网易新闻查看精彩图片

机器手解魔方时对它施加干扰

为了测试我们的方法的局限性，我们在单手解魔方的时候做了各种各样的干扰实验。这不仅测试了我们 控制网络的稳健性，也测试了我们的 视觉网络，在这里我们用视觉网络来估算魔方的位置和方向。

我们发现，我们用ADR训练的系统对干扰的稳健性令人惊讶，尽管我们没有对这些干扰条件进行过训练： 在所有干扰测试中，机器手都能成功地完成大多数翻转和旋转面，尽管性能没有达到最佳。

元学习

我们认为，元学习，或learning to learn，是构建通用系统的一个重要前提，因为元学习使它们能够快速适应环境中不断变化的条件。ADR背后的假设是，一个记忆增强网络与一个充分随机化的环境相结合，导致了emergent meta-learning，其中网络实现了一个学习算法，允许自己快速调整其行为以适应其所部署的环境。

为了系统地测试这一点，我们测量了神经网络在不同的扰动下(如重新设置网络的内存、重新设置动态、或断开一个关节)每次翻转魔方(旋转魔方使不同颜色的面朝上)成功的时间。我们在仿真环境进行这些实验，这使我们能够在一个受控的环境中进行超过10000次的性能测试。

打开网易新闻查看精彩图片

一开始，随着神经网络成功地完成更多的翻转，每次连续成功的时间都在减少，因为神经网络学会了适应。当施加干扰时(上图中垂直的灰色线条)，我们看到了成功时间的一个峰值。这是因为网络采用的策略在变化的环境中不起作用。然后，网络重新学习新的环境，我们再次看到成功的时间减少到先前的基线。下图是机器手在模拟环境中解魔方的可视化。

打开网易新闻查看精彩图片

我们使用可解释性工具箱中的一个构件，即非负矩阵分解，将这个高维向量压缩成6组，并为每组分配一个独特的颜色。然后在每一步中显示当前主导组的颜色。为什么说转个魔方就称得上实现了机器人技术的飞跃？

实际上会玩魔方的机器人并不只有Dactyl一个。那些专门被设计用来解魔方的机器人，甚至可以比Dactyl更快地处理三阶、甚至更高阶的魔方，那么为什么只有Dactyl获得如此高的评价呢？

OpenAI的研究科学家和机器人技术负责人彼得・韦林德（Peter Welinder）认为，原因就在于Dactyl不是专门用来玩魔方的！玩魔方只是一个demo，而Dactyl最大的亮点在于“自学习”！

目前人工智能机器人之所以能够在特定场景下超越人类，因为它是针对这个特定任务进行不断的微调和优化后的结果，通过编程来尽可能高效地执行任务。但跳出机器人的“舒适区”后，它可能连人类的婴儿都不如。

人工智能和机器人行业一直希望达成这样的目标：制造一个机器人，它可以自己学会处理各种现实世界中的实际任务，而无需经过长时间的训练或者有针对性的编程。是Dactyl让他们看到了曙光！

Dactyl拥有“自学习”特性，这意味着它能够自动适应各种场景。OpenAI希望有一天，只存在科幻电影里的经典机器人角色，能够走出荧幕，走进千家万户，为人类提供服务。

OpenAI团队认为，Dactyl此次成功解决魔方任务也印证了其可以在处理实际问题之前，通过仿真训练学习新任务。

打开网易新闻查看精彩图片

AI“双子星”同日联动：DeepMind加速编程自动化，OpenAI新方法解开2道国际奥数题

双子星light,双子α星,双子星cp是什么意思,light-双子星

本文约3200字，建议阅读10+分钟
目前为止，这些AI编程系统正在飞快地学习。

作者：刘媛媛、LZM

2022 年开年不久，全球人工智能领域两大明星公司不约而同在今天宣布了重要进展：OpenAI 称自己构建了一个神经定理证明器，该证明器学会了解决各种具有挑战性的高中数学问题，包括 AMC12 和 AIME 比赛的问题，以及改编自 IMO 的两个问题。

DeepMind 则表示，由其开发的名为 AlphaCode 的人工智能系统，该系统的“编程能力能与一般人类程序员相竞争”。DeepMind 说，该系统的结果是朝着自主编程迈出的重要一步，尽管现在为止 AlphaCode 的能力不一定能代替普通程序员完成日常编程任务。

本文将分别介绍这两项成果。

OpenAI：AI 进军数学

根据 OpenAI 的介绍，他们的证明器使用语言模型来寻找形式陈述的证明。每次找到一个新的证明时，OpenAI 都会将其用作新的训练数据，用来改进神经网络，并使其能够通过迭代进而找到解决更难更复杂陈述的方案。

OpenAI 在 miniF2F 基准――一个具有挑战性的高中奥林匹克问题集合，测试中取得了目前的最先进的水平（41.2% vs 29.3%）。

OpenAI 的方法称之为陈述课程学习（statement curriculum learning），包括手动收集一组不同难度级别的陈述（没有证据），其中最难的陈述与OpenAI的目标基准相似。最初，OpenAI 的神经证明器能力很弱，只能证明其中的几个。

OpenAI 反复搜索新的证明，并在新发现的证明上重新训练 OpenAI 的神经网络，经过 8 次迭代，最终 OpenAI 的证明器在 miniF2F 上测试时表现得非常出色。

形式数学是一个令人兴奋的研究领域，首先因为它具有丰富性，让你可以证明需要推理、创造力和洞察力的任意定理；其次因为它与游戏的相似性――人工智能在游戏领域取得了惊人的成功――因为它用一种自动化的方式来确定证明是否成功（即，由形式系统验证）。

如下面的简单示例所示，证明形式陈述需要生成一系列证明步骤，每个证明步骤都包含对策略的调用。这些策略以数学术语作为论据，每个策略调用都会将当前要证明的陈述转换为更容易证明的陈述，直到没有任何东西可以证明。

图1 问题1

通过观察发现，在 OpenAI 的训练过程中出现了一种能力，即生成作为战术参数所需的原始数学术语。如果没有神经语言模型，这是无法完成的。下面的证明就是一个例子：证明步骤提出使用 n+1 作为解决方案（这完全由 OpenAI 的模型生成），其余的正式证明依靠 ring_exp 策略来验证它确实是有效的。

图2 问题2

OpenAI 还观察到，OpenAI 的模型和搜索程序能够生成链接多个非平凡推理步骤的证明。在下面的证明中，模型首先使用存在性陈述的对立。然后使用为它生成一个见证，并通过利用 norm_num 策略完成证明。

图3 问题3

OpenAI 的模型经过陈述课程学习训练，能够解决培训教科书和 AMC12 和 AIME 比赛中的各种问题，以及改编自 IMO 的 2 个问题。下面 OpenAI 展示此类生成证明的三个示例。

图4 问题4

图5 问题5

图6 问题6