淘优惠

淘优惠

业界 | OpenAI提出新型元学习方法EPG,调整损失函数实现新任务上的快速训练

热门文章 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】


原标题:业界 | OpenAI提出新型元学习方法EPG,调整损失函数实现新任务上的快速训练

选自OpenAI

参与:路雪、刘晓坤

刚刚,OpenAI 提出一种实验性元学习方法 Evolved Policy Gradients(EPG),该方法演化学习智能体的损失函数,从而实现在新任务上的快速训练。

OpenAI 发布一种实验性元学习方法 Evolved Policy Gradients(EPG),该方法从学习智能体的损失函数发展而来,可实现在新任务上的快速训练。测试时,使用 EPG 训练的智能体可在超出训练范畴的基础任务上取得成功,比如学习从训练时某物体的位置导航至测试时该物体的位置(房间另一侧)。

  • 论文地址:https://storage.googleapis.com/epg-blog-data/epg_2.pdf
  • 代码地址:https://github.com/openai/EPG

EPG 训练智能体,使其具备如何在新任务中取得进展的先验知识。EPG 没有通过学得的策略网络编码先验知识,而是将其编码为学得的损失函数。之后,智能体就能够使用该损失函数(被定义为时序卷积神经网络)快速学习新任务。OpenAI 展示了 EPG 可泛化至超出分布(out of distribution)的测试任务,其表现与其他流行的元学习算法有质的不同。在测试中,研究人员发现 EPG 训练智能体的速度快于 PPO(一种现成的策略梯度方法)。EPG 与之前为强化学习智能体设计适合的奖励函数的研究(Genetic Programming for Reward Function Search 等)有关,不过 EPG 将这个想法泛化至演化一个完整的损失函数,这意味着损失函数必须高效学习内部的强化学习算法。

第一个视频展示了 OpenAI 的方法如何教会机器人在不重置环境的情况下到达不同的目标,第二个视频是 PPO 方法。左上的数字表示目前的学习更新次数。注意该视频展示了完整的实时学习过程。

EPG 背后的设计知觉来自于我们都很熟悉的理念:尝试学习新技巧,经历该过程中挫折和喜悦的交替。假设你刚开始学习拉小提琴,即使没有人指导,你也立刻可以感觉到要尝试什么。听自己弹奏出的声音,你就能感觉到是否有进步,因为你具备完善的内部奖励函数,该函数来源于其他运动任务的先验经验,并且通过生物进化的过程演化而来。相反,大部分强化学习智能体在接触新任务时未使用先验知识,而是完全依赖于外部奖励信号来指导初始行为。从空白状态开始,也就难怪当前的强化学习智能体在学习简单技巧方面比人类要差得远了。EPG 通过过去在类似任务上的经验,朝「不是空白状态、知道怎么做才能完成新任务」的智能体迈出了一步。

EPG 包含两个优化循环。在内部循环中,智能体从头学习解决从一类任务中采样的特定任务。这类任务可能是「移动抓器到某个位置 [x, y]」。内部循环使用随机梯度下降(SGD)来优化智能体策略,对抗外部循环中的损失函数。外部循环评估内部循环学习所得的返回结果,并使用进化策略(ES)调整损失函数的参数,以提出可带来更高返回结果的新型损失函数。

具备学得的损失函数比当前的强化学习方法有多个优势:使用进化策略来演化损失函数允许我们优化真正的目标(最终训练出的策略性能)而不是短期返回结果,EPG 通过调整损失函数适应环境和智能体历史,从而优于标准的强化学习算法。

上图展示了 OpenAI 的方法如何教会机器人反向跳跃,下面的图是 PPO 方法。EPG 带来了智能体的探索行为,智能体在意识到反向行走会带来高奖励之前已经尝试反向行走了。左上的数字表示目前的学习更新次数。注意该视频展示了完整的实时学习过程。

近期出现了大量关于元学习策略的研究,我们必须要问为什么学习损失函数,而不是直接学习策略?学习循环策略可能会使当前任务出现过拟合,而学习策略初始化会在探索时限制表达性。OpenAI 的动机是期望损失函数可以很好地泛化至大量不同任务中。这当然适用于手工调整的损失函数:设计完备的强化学习损失函数(如 PPO 中的损失函数)可以广泛应用于大量任务(从 Atari 游戏到控制机器人)。

为了测试 EPG 的泛化能力,研究者设置了一个简单的实验,演化 EPG 损失直到智能体「蚂蚁」有效地移动到圆形运动场右侧的随机目标位置。然后,固定损失函数,给蚂蚁一个新的目标,这一次是左侧的位置。令人惊讶的是,蚂蚁学会了走到左侧!以下是它们的学习曲线展示(红线):

结果非常好,因为它展示了在「超出训练分布」的任务中的泛化效果。这种泛化很难达到。OpenAI 研究人员将 EPG 与另一种元学习算法 RL2 进行了对比,后者尝试直接学习可用于新型任务的策略。实验表明,RL2 确实可以成功地让智能体走向屏幕右侧的目标。但是,如果测试时的目标是在屏幕左侧,则智能体失败,还是一直向右走。也就是说,其对训练任务设置(即向右走)产生「过拟合」。

上述视频(见原文)展示了 OpenAI 的方法(左)如何从头开始教会机器人行走和到达目标(绿色圈),右侧是 RL2。左上的数字表示目前的学习更新次数。注意该视频展示了 3X 实时速度时的完整学习过程。

和所有的元学习方法一样,该方法仍然存在许多限制。现在,我们可以训练一次性处理一类任务的 EPG 损失函数,例如,让一只蚂蚁左右走。然而,面向这类任务的 EPG 损失函数对其他不同类任务未必有效,例如玩《太空侵略者》游戏。相比之下,标准的 RL 损失具备这种泛化能力,同一损失函数可被用于学习大量不同的技能。EPG 获得了更好的表现,却失去了泛化能力。要想同时得到性能与泛化能力,元学习方法还有很长的路要走。

原文链接:https://blog.openai.com/evolved-policy-gradients/

本文为机器之心编译,转载请联系本公众号获得授权。返回搜狐,查看更多

责任编辑:


为何我对现在OpenAI对齐方法持乐观态度

现在我为什么,为什么会对现在的生活感到不满意,为什么你现在,为什么我对

作者 Jan Leike, OpenAI译者 Xiaohu Zhu, Center for Safe AGI

OpenAI 的对齐研究方法包括完善 RLHF 、AI 辅助人工评估自动对齐研究。为什么这是一个好策略?看好它的理由是什么?我的乐观来自五个方面:

  1. 关于 AI 的积极更新。过去几年的许多发展使 AI 系统比最初看起来更有利于对齐,无论是在 AI 技术树如何摇晃还是我们迄今为止收集到的对齐经验证据方面。
  2. 一个更温和的目标。我们并不是要解决所有对齐问题。我们只是试图调整一个系统,该系统的能力足以取得比我们更大的调整进展。
  3. 评估比生成更容易。这是一个非常普遍的原则,适用于许多领域。对齐研究也是如此。
  4. 我们正在为迭代做好准备。我们可以为对齐路径上的迭代、可衡量的改进做好准备。
  5. 语言模型中的信念。语言模型将足够聪明,可以从中获得有用的对齐研究工作。

尽管如此,仍有许多工作要做,重要的是要记住,比我们更智能的对齐系统看起来与对齐今天的模型有很大不同。区分乐观和谨慎也很重要:举证责任始终在于表明新系统充分协调一致,我们不能将举证责任转移到表明情况与早期系统相比发生了变化。最后一部分回应了对我们方法的一些常见反对意见

几年前,通向通用人工智能的途径似乎是通过在广泛的游戏和多智能体环境中从头开始训练深度强化学习智能体。这些智能体将与最大化简单的得分函数(例如生存和获胜游戏)保持一致,并且对人类价值观了解不多。对齐生成的智能体需要付出很多努力:我们不仅需要从头开始创建一个与人类对齐的目标函数,我们可能还需要向智能体灌输真正的新能力,比如理解人类社会、人类关心什么,以及人类的思维方式。大型语言模型 (LLM) 使这变得容易得多:它们预装了大量人类知识,包括有关人类偏好和价值观的详细知识。开箱即用,他们不是试图在世界上追求自己目标的智能体。在许多方面,它们是一张白纸,我们可以在上面写下我们的目标函数,而且它们非常容易训练,表现得更好。1.2 实证证据看好

近年来一些最令人兴奋的对齐工作是基于经验的:研究人员构建了他们认为对齐程度更高的系统的原型,以了解它的实际工作情况以及问题所在。这并不是要削弱概念性洞察力,但如果没有数学定理或经验证据的支持,这些概念性洞察力总是站不住脚的。

  • Deep RL from human preferences :当开始研究它时,我认为它很可能不会真正起作用。除了在非常小的数据集上, GAN 最初并没有真正起作用,并且花了几年时间和许多研究力量才弄清楚如何使训练稳定的技巧。然而 RLHF 工作得很好,即使在视觉上非常奇怪的 Atari 游戏和使用来自真实人类的反馈时也是如此。让 RLHF 发挥作用并不容易:Dario 的调优直觉对于让它在 Atari 上发挥作用非常重要。当时的训练非常糟糕,因为深度强化学习通常如此,而且需要多次迭代才能开始工作。但确取得了成功
  • 来自人类反馈的总结:这确实是第一个令人信服的概念证明,证明 RLHF 可以在语言模型上工作,并且你可以优化模糊且有些模棱两可的目标。这一点很重要,因为人类价值观是模糊的,并且在这篇论文之前,还没有大规模的人工智能系统从模糊目标中学习的明确示范。虽然从理论上讲,学习人类价值观实际上与学习识别图像中的猫没有根本区别,但目前尚不清楚针对这些模糊目标进行优化在实践中是否有效。
  • InstructGPT证明在语言模型中存在真正的“对齐悬垂”,这并不是很难访问。主要结果是,人类偏好分数的模型大小有效增加 100 倍绝对是疯狂的,如果模型大小“仅仅”增加 5 倍,我会感到非常惊讶。所需的人类反馈量相当适中且可以实现:约 50,000 次比较和约 300,000 个回合的训练。这个数字是如此之小,以至于我们实际上可以让人类在每个训练集中手动标记!这首次表明,即使是适度的调优也可以使模型行为发生很大变化,使其在 GPT-3 大小的模型上更加一致。这是一个令人难以置信的好消息!
  • 自我批评模型:在一项对人类来说并不困难的任务上,帮助人类发现的缺陷比他们在没有非超人模型帮助下多出 50% 的缺陷是一个令人惊讶的强大结果,表明我们的模型基本上已经可以添加一个反馈帮助很有价值。这大大增加了我对递归奖励建模的乐观情绪:有意义地协助人类评估实际上比我之前想象的要容易。也许这是因为我们的人类贴标签者实际上并不那么小心,或者因为不是很聪明的模型仍然很擅长发现随机缺陷。
  • Discriminator-critique (DC) gap :DC gap 可能是我们目前拥有的最接近我们从语言模型中引出潜在知识的经验指标。一个大的 DC 差距意味着我们的模型知道他们的反应中的一堆缺陷,当我们很好地询问时他们没有告诉我们。我们在评论论文中测得的 DC 差距小得惊人,从那时起,我们一直在努力寻找一种干净的方法来展示玩具任务中的问题或我们专门为此目的制作的代码数据集。如果引出潜在知识实际上是一个大问题,为什么在今天的模型中如此难以展示?看起来他们实际上很擅长告诉我们他们所做的事情出了什么问题。尽管如此,令人担忧的是DC 差距不会随着模型大小而缩小

我们不要被这些证据冲昏了头脑。仅仅因为它到目前为止一直很受欢迎,并不意味着它会继续如此。人工智能系统还没有比我们聪明,所以我们还没有面临真正的问题。但到目前为止的证据仍然很重要:如果我们很难调整当前的人工智能系统,我们应该更担心调整未来的人工智能系统。如果我们不能在简单模式下赢得比赛,我们就不应该指望在困难模式下赢得比赛。但是如果我们真的在简单模式下赢了,我们可能仍然会在困难模式下失败,我们需要做好努力的准备。

在考虑解决对齐问题时,很自然地会想到要为整个问题找到一劳永逸的解决方案。直到LLM兴起之前,我都是这么想的。找到这个一劳永逸的解决方案可能非常困难,而且我们真的不知道该怎么做。这项任务看起来非常艰巨,很容易对此感到悲观。但这不是我们人类需要做的。相反,我们只需要构建一个最小的可行产品:一个自动比对研究人员,它可以帮助我们更快地取得更多比对进展。例如,如果我们自动生成大部分对齐工作,我们可以专注于评估,我认为这要容易得多。换句话说,在这条道路上,我们可能不必独自面对对齐问题的所有最艰巨挑战,而是可以让 AI 帮助我们解决这些问题。这有很多优点:1. 模型不必完全对齐。它只需要充分对齐即可帮助我们完成这项狭窄的任务。它不必指出它所知道的给定对齐建议中的所有缺陷(它可以有 DC 间隙),只要我们有其他方法可以找到它们。它不一定是最大的帮助,只要它很有帮助即可。我们不得不怀疑模型无论如何都在做什么,如果我们不能对其进行严格评估,就将其丢弃。

2. 该模型可以“更窄”。它不需要很好地理解生物学、物理学或人类社会。在实践中,我们可能会从确实了解所有这些事情的 LLM 进行调优,但我们可以对模型应用一些有针对性的脑损伤作为安全预防措施。更一般地说,该模型只需在少数几个领域超过人类水平,而在大多数其他领域可能比人类更差。

3. 添加更多保护措施很容易。该系统不需要连接到互联网,不需要与大量的人交互,也不需要运行任意代码。这些保护措施不会保护我们免受想要爆发的超级智能系统的侵害,但它们将有助于在一段时间内提高我们的安全边际。

4. 该模型不需要很多代理。该系统不必设定自己的目标或追求跨越长远的目标。我们不需要使用现实世界中的长期结果来监督它。

5. 该模型不需要持久内存。我们可以根据模型需要了解的内容对模型进行调优,并使用中等大小的上下文来保存与任务相关的信息。我们不需要模型来决定它应该记住什么。

6. 对齐税没那么重要。因为该系统不直接与市场上其他对齐度较低的系统竞争,所以相对于其他训练方法来说更大的开销可能不会产生很大的不同,只要自动对齐研究的总体成本是可控的。

这些方面中的每一个都应该使我们的工作明显比实际尝试对齐一个在真实世界上像CEO一样行事的通用数字智能体更容易。

然而,自动对齐研究还需要对研究产品进行更严格的审查:由于这项研究可能会告知下一代 AI 系统的构建方式,因此它是 AI 系统试图获得对人类的控制权的途径。此外,成功实现这一目标并不意味着人类在对齐方面的工作已经完成,即使他们不再具备认知能力来做出与 AI 相关的有意义的智力贡献。

这个原则很重要,因为它使我们能够轻松地从我们的系统中获得有意义的对齐工作。如果这是真的,这意味着如果我们将时间和精力集中在评估我们的系统正在做什么而不是自己做这项工作(即使它们的生成能力不如我们的),我们就可以大大加快我们的研究。

此属性是递归奖励建模的基础(并且在某种程度上存在争议):如果评估比生成更容易,则辅助人类比类似的智能 AI 生成器具有优势。只要这是真的,我们就可以通过为执行这些任务的 AI 系统创建评估(并因此训练)信号来扩展到越来越难的任务。虽然递归奖励建模不会无限扩展,但也不需要。它只需要扩展到足以让我们能够用它来监督大量对齐研究

评估比生成更容易是一个非常普遍的属性,适用于许多领域:

  • 形式化问题。大多数计算机科学家认为 NP !=P ,这意味着该属性在形式上适用于一大类问题。这些问题中的大多数也已经通过经验证明对于我们可以想到的算法具有此属性:SAT 求解、图算法、证明搜索、模型检测等。
  • 经典运动和游戏。任何值得观看的运动或游戏都具有此属性。观众不仅需要能够分辨出谁赢得了比赛,还需要能够分辨出谁领先以及谁做出了精彩的动作或动作。因此,评估需要足够简单,以便绝大多数听众都能完成。与此同时,一代人(玩好游戏)需要足够困难,让最优秀的人能够轻松地从绝大多数人中脱颖而出;否则举办比赛就不会很有趣了。例如:你可以通过查看玩家的单位和经济来判断谁在星际争霸中领先;你可以通过查看杀戮/死亡统计数据和获得的金币来判断谁在 DotA 中领先;您可以通过查看材料和位置来判断谁在国际象棋中领先(尽管很难很好地评估位置);您可以通过查看记分牌以及谁的球场上场时间最多来判断谁在足球比赛中获胜;等等。
  • 许多消费品:比较不同智能手机的质量比打造更好的智能手机要容易得多。这不仅适用于 RAM 数量或像素数量等易于测量的特性,还适用于更模糊的方面,如握持的舒适度和电池的续航时间。事实上,大多数(科技)产品都是如此,这就是人们关注亚马逊和 YouTube 评论的原因。另一方面,对于个人消费者难以评价且政府监管较少的产品,市场上往往充斥着低质量的产品。例如,营养补充剂通常没有他们声称的好处,不包含他们声称的活性成分数量,或者含有不健康的污染物。在这种情况下,评估需要昂贵的实验室设备,所以大多数做出购买决定的人都没有可靠的信号;他们只能服用补充剂,看看他们的感受。
  • 大部分工作:每当公司雇用一名员工时,他们都需要知道该员工是否真的在帮助他们实现使命。花在评估员工工作绩效上的时间和精力与他们完成工作所花费的时间和精力一样多是不经济的,因此在评估工作绩效上花费的精力要少得多。它有效吗?我当然不会说公司会得到关于员工实际表现如何的完美信号,但如果他们不能比员工更容易地进行评估,那么绩效改进、晋升和解雇等努力基本上是随机的和浪费的的时间。因此,那些没有在员工绩效评估上投入大量时间和精力的公司应该比其他这样做的公司更有竞争力。
  • 学术研究:众所周知,评估学术研究非常困难,政府资助机构几乎没有工具来区分研究的好坏:决策通常需要由非专家做出,大量低质量的工作得到资助,以及引用次数等代理指标已知已发表论文的数量被过度优化。NeurIPS实验著名的是在学术审查过程中发现了很多噪音,但很容易被忽视的是,也有很多有意义的信号:写一篇 NeurIPS 论文通常需要至少几个月的全职工作(比如 >1,000 小时),而审核通常会在几个小时内完成(例如,4 项审核每项耗时 3 小时,总计 12 小时)。然而,评审委员会在 77% 的情况下同意接受/拒绝决定,并在 94% 的情况下同意接受口头/聚光灯评级的论文。这是一个令人难以置信的高一致性率(远高于 OpenAI API 任务,在 OpenAI API 任务中,标注者与标注者之间的一致性大约为 70-80%),因为生成的工作比评估多了两个数量级!关于打破学术激励以及 NeurIPS 论文是否真正推进了人类的科学知识,有很多话要说,

然而,也有一些任务通常不符合这个原则:写签名比评估给定的波浪线是否是你的签名更容易。对狗的图像进行加密或散列处理很容易,但很难评估某些给定的二进制数据是否是狗的加密图片或散列处理图像。这使得密码学成为可能。上述证据并不意味着该原则也适用于比对研究。但它肯定对此表示非常重视。换句话说,如果评估 NeurIPS 论文比撰写它们要难得多,而且审稿人不会倾向于同意高于机会水平,我们难道不应该将其视为对齐研究易于自动化的证据吗?

更重要的是,如果对齐研究的评估确实比生成更容易,那么即使对于纯粹由人驱动的对齐研究来说,这也是个坏消息:在这种情况下,找到对齐问题解决方案的人不会能够说服其他人使用该解决方案,因为其他人不会知道它是否有任何好处。相反,每个 AGI 开发人员都需要为自己想出一个解决方案。

虽然任何用于评估对齐研究的代理指标都可能被过度优化,并且会导致对齐研究看起来很有吸引力但存在根本缺陷,但这并不意味着暂时不会有仍然有用的代理指标来优化。然而,有一个重要的警告:对抗性构建的输入可能比非对抗性输入更难评估(尽管评估可能仍然比生成更容易)。例如,超过人类水平的围棋智能体有简单的攻击。对齐研究的一个假设示例:仅通过控制训练期间的随机性,就可以将后门植入模型中。不知道这一点的人类评估者将错过由秘密操纵随机源的恶意 AI 系统编写的训练代码中的一个重要缺陷。另一个重要的悬而未决的问题是,如果您不能依赖来自现实世界的反馈信号,评估会容易得多。例如,评估一段代码是否比编写它更容易,即使您不允许运行它?如果我们担心我们的 AI 系统编写的代码可能包含特洛伊木马和破坏沙箱的代码,那么在我们仔细审查之前,我们不能运行它来“看看会发生什么”。在这种情况下,自己从头开始重写代码比发现隐藏的缺陷(莱斯定理表明这不是防御优势)更容易。

概念调整工作存在的问题之一是不清楚何时取得进展以及取得多大进展。最好的替代方法是“其他研究人员是否认为正在取得进展”,这是非常有缺陷的:对齐研究社区在很大程度上不同意任何概念性作品是否构成真正的进步。一旦您为迭代做好准备,很多问题就会变得更容易处理:您拥有 (1) 一个可以正常工作的基本系统(即使一开始只是勉强)和 (2) 一个智能体指标,告诉您是否你所做的改变就是改进。这允许对现有系统进行增量更改,并允许您从现实中获取信息的反馈循环。在机器学习类比中,(1) 是模型架构,(2) 允许我们计算梯度;它们一起允许我们采取梯度步骤。从这个意义上说,对齐研究是非常元的:我们正在优化一个指标 (2),该指标衡量我们在制定可以优化(例如通过 RL)以取得进展的指标(例如对齐奖励模型)方面取得的进展。我不会详述明显的goodharting免责声明,即我们无法无限期地优化我们拥有的任何指标。然而,有些指标是有用的,我们可以在需要更好的指标之前优化它们一段时间。虽然我们还没有为对齐 AGI 的迭代做好准备,但我们已经成功地为导致它的许多小问题做好了准备。一些例子:

  • 训练InstructGPT以最大化人类对 OpenAI API 提示的偏好,并训练ChatGPT以最大化人类偏好作为对话助手。这使我们能够评估许多不同的模型:我们可以调整超参数、改变数据组合、改变训练方法(例如 SFT 与 PPO)并查看它们的效果。不用说,它不是一个完美的指标,因为它不能很好地捕捉到一堆问题(例如不安全的响应)。在某些时候,我们的模型将学会欺骗我们的人类评估员,但这对于改进 InstructGPT 和 ChatGPT 非常有价值。
  • 通过人工自动

    为啥ChatGPT让LeCun酸成柠檬精?谷歌、Meta、OpenAI聊天机器人大PK!

    聊天机器人github,replica聊天机器人app,聊天机器人开源,谷歌聊天机器人失控

    原标题:为啥ChatGPT让LeCun酸成柠檬精?谷歌、Meta、OpenAI聊天机器人大PK!

    ?

    点击图片,查看详情

    |本文转自:新智元 ???

    【导读】做聊天机器人,OpenAI不是第一家,但绝对是最出风头的那个。谷歌、Meta、DeepMind、OpenAI的聊天机器人大PK,谁最牛?

    前几天,Meta首席人工智能科学家Yann LeCun的一段对于ChatGPT的点评迅速传遍圈内外,引发了大波讨论。

    在Zoom的媒体和高管小型聚会上,LeCun给出了一段令人惊讶的评价:「就底层技术而言,ChatGPT并不是多么了不得的创新。」

    「虽然在公众眼中,它是革命性的,但是我们知道,它就是一个组合得很好的产品,仅此而已。」

    ChatGPT不算什么创新

    ChatGPT作为这几个月的聊天机器人「顶流」,早就红遍全世界,甚至切实改变了一部分人的职业生涯,以及学校教育的现状。

    全世界为它惊叹的时候,LeCun对ChatGPT的点评居然如此「轻描淡写」。

    但其实,他的言论不无道理。

    像ChatGPT这种数据驱动的人工智能系统,许多公司和研究型实验室有。LeCun表示,OpenAI在这个领域并没有多么独树一帜。

    「除了谷歌和Meta之外,还有六家初创公司,基本上都拥有非常相似的技术。」LeCun 补充道。

    接着,LeCun小酸了一把――

    「ChatGPT用的是以自监督方式进行预训练的Transformer架构,而自监督学习是本人长期以来一直提倡的,那会儿OpenAI还没诞生呢。」

    其中,Transformer是谷歌的发明。这种语言神经网络,正是GPT-3等大型语言模型的基础。

    而第一个神经网络语言模型,Yoshua Bengio早在20年前就提出了。Bengio的注意力机制后来被谷歌用于Transformer,之后更是成为了所有语言模型中的关键元素。

    另外,ChatGPT用的是人类反馈强化学习(RLHF)的技术,也是由谷歌DeepMind实验室开创的。

    在LeCun看来,ChatGPT与其说是一个科学突破,不如说是一项成功的工程案例。

    OpenAI的技术「在基础科学方面并没有什么创新性,它只是设计得很好而已。」

    「当然啦,我不会为此批评他们。」

    我不是在批评OpenAI的工作,也不是在批评他们的主张。

    我是想纠正公众和媒体的看法,他们普遍认为ChatGPT是一种创新且独特的技术突破,然而事实并非如此。

    在纽约时报记者Cade Metz的座谈会上,LeCun感受到了好事者的疑问。

    「你可能想问,为什么谷歌和Meta没有类似的系统呢?我的回答是,如果谷歌和Meta推出这种会胡说八道的聊天机器人,损失会相当惨重。」他笑着说。

    无独有偶,OpenAI被微软等金主看好、身价飙升至290亿美元的新闻一出,马库斯也连夜在博客上写了一篇文章嘲讽。

    在文中,马库斯爆出一句金句: 你OpenAI能做啥谷歌做不到的事,值290亿美元天价?

    谷歌、Meta、DeepMind、OpenAI大PK!

    话不多说,咱们把这几家AI巨头的聊天机器人都拉出来遛遛,用数据说话。

    LeCun说许多公司和实验室都有类似ChatGPT的AI聊天机器人,此言不虚。

    ChatGPT并不是第一个基于语言模型的AI聊天机器人,它有很多「前辈」。

    在OpenAI之前,Meta、谷歌、DeepMind等都发布了自己的聊天机器人,比如Meta的BlenderBot、谷歌的LaMDA、DeepMind的Sparrow。

    还有一些团队,也公布了自己的开源聊天机器人计划。比如,来自LAION的Open-Assistant。

    在Huggingface的一篇博客中,几位作者调查了关于RLHF、SFT、IFT、CoT(它们都是ChatGPT的关键词)这些主题的重要论文,对它们进行了分类和总结。

    他们制成了一个表,根据公开访问、训练数据、模型架构和评估方向等细节,对BlenderBot、LaMDA、Sparrow和InstructGPT这些AI聊天机器人进行了比较。

    注意:因为ChatGPT没有记录,所以他们使用的是InstructGPT的细节,InstructGPT是一个来自OpenAI的指令微调模型,可以被认为是ChatGPT的基础。

    LaMDA

    BlenderBot 3

    Sparrow

    ChatGPT/ InstructGPT

    组织机构

    Google

    Meta

    DeepMind

    OpenAI

    访问权限

    封闭

    公开

    封闭

    有限

    参数规模

    1370亿

    1750亿

    700亿

    1750亿

    基础模型

    未知

    OPT

    Chinchilla

    GPT-3.5

    语料库规模

    2.81万亿

    1000亿

    1.4万亿

    未知

    访问网络

    监督微调

    微调数据规模

    高质量:6.4K

    安全性:8K

    落地性:4K

    IR: 49K

    20个NLP数据集,范围从18K到1.2M

    未知

    12.7K(ChatGPT可能更多)

    RLHF

    人工安全规则

    ?

    ?

    不难发现,尽管在训练数据、基础模型和微调方面存在许多差异,但这些聊天机器人都有一个共同点――遵循指令。

    比如,你可以通过指令让ChatGPT写一首关于微调的诗。

    可以看到,ChatGPT非常「识相」,写诗都不忘拍一下LeCun和Hinton两位祖师爷的马屁。

    随后激情洋溢地赞颂道:「微调啊,微调,你是一支美丽的舞蹈。」

    从预测文本到遵循指令

    通常情况下,基础模型的语言建模,是不足以让模型学会如何遵循用户指令的。

    在模型的训练中,研究人员除了会采用经典的NLP任务(比如情感、文本分类、总结等),还会使用指令微调(IFT),也就是在非常多样化的任务上通过文字指令对基础模型进行微调。

    其中,这些指令示例由三个主要部分组成:指令、输入和输出。

    输入是可选的,有些任务只需要指令,如上面ChatGPT示例中的开放式生成。

    当一个输入和输出出现时,就形成了一个示例。对于一个给定的指令,可以有多个输入和输出示例。比如下面这个例子:

    IFT的数据,通常是人类编写的指令和使用语言模型引导的指令示例的集合。

    在引导过程中,LM在few-shot(小样本)的设置中被提示(如上图),并被指示生成新的指令、输入和输出。

    在每一