淘优惠

淘优惠

chatgpt真的无所不能么 chatgpt实测

热门文章 0
chatgpt怎么下载,chatgpt国内能用吗,chatgpt使用,chatgpt原理
将门创投
・北京

最近,OpenAI的预训练模型ChatGPT给人工智能领域的研究人员留下了深刻的印象和启发。毫无疑问,它又强又聪明,且跟它说话很好玩,还会写代码。它在多个方面的能力远远超过了自然语言处理研究者们的预期。于是我们自然就有一个问题:ChatGPT 是怎么变得这么强的?它的各种强大的能力到底从何而来?在这篇文章中,我们试图剖析 ChatGPT 的突现能力(Emergent Ability),追溯这些能力的来源,希望能够给出一个全面的技术路线图,来说明 GPT-3.5 模型系列以及相关的大型语言模型是如何一步步进化成目前的强大形态。

打开网易新闻 查看精彩图片

英文原版: https://franxyao.github.io/blog.html 作者:符尧 yao.fu@ed.ac.uk C 爱丁堡大学 (University of Edinburgh) 博士生,本科毕业于北京大学 与 彭昊,Tushar Khot在 艾伦人工智能研究院 (Allen Institute for AI) 共同完成英文原稿 与 剑桥大学 郭志江 共同翻译为中文 感谢 上海交通大学 何俊贤,加州大学洛杉矶分校 鲁盼,达特茅斯学院 刘睿博 对初稿的讨论与建议。 感谢 Raj Ammanabrolu (Allen Institute for AI), Peter Liu (Google Brain), Brendan Dolan-Gavitt (New York University), Denny Zhou (Google Brain) 对终稿的讨论和建议,他们的建议极大程度上增加了本文的完整度。

我们希望这篇文章能够促进大型语言模型的透明度,成为开源社区共同努力复现 GPT-3.5 的路线图。

致国内的同胞们:

  • 在国际学术界看来,ChatGPT / GPT-3.5 是一种划时代的产物,它与之前常见的语言模型 (Bert/ Bart/ T5) 的区别,几乎是导弹与弓箭的区别,一定要引起最高程度的重视。

  • 在我跟国际同行的交流中,国际上的主流学术机构 (如斯坦福大学,伯克利加州大学) 和主流业界研究院(如谷歌大脑,微软研究院)都已经全面拥抱大模型。

  • 在当前这个阶段,国内的技术水准,学术视野,治学理念和国际前沿的差距似乎并没有减少,反而正在扩大,如果现状持续下去,极有可能出现技术断代。

  • 此诚危急存亡之秋。

多年以后,面对行刑队,奥雷里亚诺・布恩迪亚上校将会回想起父亲带他去见识冰块的那个遥远的下午。―― 《百年孤独》 加西亚・马尔克斯

一、2020 版初代 GPT-3 与大规模预训练

初代GPT-3展示了三个重要能力:

  • 语言生成:遵循提示词(prompt),然后生成补全提示词的句子。这也是今天人类与语言模型最普遍的交互方式。

  • 上下文学习(in-context learning): 遵循给定任务的几个示例,然后为新的测试用例生成解决方案。很重要的一点是,GPT-3虽然是个语言模型,但它的论文几乎没有谈到“语言建模” (language modeling) ―― 作者将他们全部的写作精力都投入到了对上下文学习的愿景上,这才是 GPT-3的真正重点。

  • 世界知识:包括事实性知识 (factual knowledge) 和常识 (commonsense)。

那么这些能力从何而来呢?

基本上,以上三种能力都来自于大规模预训练:在有3000亿单词的语料上预训练拥有1750亿参数的模型( 训练语料的60%来自于 2016 - 2019 的 C4 + 22% 来自于 WebText2 + 16% 来自于Books + 3%来自于Wikipedia)。其中:

  • 语言生成的能力来自于语言建模的训练目标(language modeling)。

  • 世界知识来自 3000 亿单词的训练语料库(不然还能是哪儿呢)。

  • 模型的 1750 亿参数是为了存储知识,Liang et al. (2022) 的文章进一步证明了这一点。他们的结论是,知识密集型任务的性能与模型大小息息相关。

  • 上下文学习的能力来源及为什么上下文学习可以泛化,仍然难以溯源。直觉上,这种能力可能来自于同一个任务的数据点在训练时按顺序排列在同一个 batch 中。然而,很少有人研究为什么语言模型预训练会促使上下文学习,以及为什么上下文学习的行为与微调 (fine-tuning) 如此不同。

令人好奇的是,初代的GPT-3有多强。其实比较难确定初代 GPT-3(在 OpenAI API 中被称为davinci)到底是“强”还是“弱”。一方面,它合理地回应了某些特定的查询,并在许多数据集中达到了还不错的性能;另一方面,它在许多任务上的表现还不如 T5 这样的小模型(参见其原始论文)。在今天(2022 年 12 月)ChatGPT 的标准下,很难说初代的 GPT-3 是“智能的”。Meta 开源的 OPT 模型试图复现初代 GPT-3,但它的能力与当今的标准也形成了尖锐的对比。许多测试过 OPT 的人也认为与现在的 text-davinci-002 相比,该模型确实 “不咋地”。尽管如此,OPT 可能是初代 GPT-3 的一个足够好的开源的近似模型了(根据 OPT 论文和斯坦福大学的 HELM 评估)。

虽然初代的 GPT-3 可能表面上看起来很弱,但后来的实验证明,初代 GPT-3 有着非常强的潜力。这些潜力后来被代码训练、指令微调 (instruction tuning) 和基于人类反馈的强化学习 (reinforcement learning with human feedback, RLHF) 解锁,最终体展示出极为强大的突现能力。

二、从 2020 版 GPT-3 到 2022 版 ChatGPT

从最初的 GPT-3 开始,为了展示 OpenAI 是如何发展到ChatGPT的,我们看一下 GPT-3.5 的进化树:

打开网易新闻 查看精彩图片

  • 2020 年 7 月,OpenAI 发布了模型索引为的 davinci 的初代 GPT-3 论文,从此它就开始不断进化。

  • 2021 年 7 月,Codex 的论文发布,其中初始的 Codex 是根据(可能是内部的)120 亿参数的 GPT-3 变体进行微调的。后来这个 120 亿参数的模型演变成 OpenAI API 中的 code-cushman-001。

  • 2022 年 3 月,OpenAI 发布了指令微调 (instruction tuning) 的论文,其监督微调 (supervised instruction tuning) 的部分对应了 davinci-instruct-beta 和 text-davinci-001。

  • 2022 年 4 月至 7 月的,OpenAI 开始对 code-davinci-002 模型进行 Beta 测试,也称其为 Codex。然后 text-davinci-002、text-davinci-003 和 ChatGPT 都是从code-davinci-002进行指令微调得到的。详细信息请参阅 OpenAI的模型索引文档。

尽管 Codex 听着像是一个只管代码的模型,但 code-davinci-002 可能是最强大的针对自然语言的GPT-3.5 变体(优于 text-davinci-002 和 -003)。code-davinci-002很可能在文本和代码上都经过训练,然后根据指令进行调整(将在下面解释)。

然后2022 年 5-6 月发布的 text-davinci-002 是一个基于 code-davinci-002 的有监督指令微调 (supervised instruction tuned) 模型。在 text-davinci-002 上面进行指令微调很可能降低了模型的上下文学习能力,但是增强了模型的零样本能力(将在下面解释)。

然后是 text-davinci-003 和 ChatGPT,它们都在2022 年 11 月发布,是使用的基于人类反馈的强化学习的版本指令微调 (instruction tuning with reinforcement learning from human feedback) 模型的两种不同变体。text-davinci-003 恢复了(但仍然比 code-davinci-002 差)一些在 text-davinci-002 中丢失的部分上下文学习能力(大概是因为它在微调的时候混入了语言建模) 并进一步改进了零样本能力(得益于RLHF)。另一方面,ChatGPT似乎牺牲了几乎所有的上下文学习的能力来换取建模对话历史的能力。

总的来说,在 2020 - 2021 年期间,在 code-davinci-002 之前,OpenAI 已经投入了大量的精力通过代码训练和指令微调来增强GPT-3。当他们完成 code-davinci-002 时,所有的能力都已经存在了。很可能后续的指令微调,无论是通过有监督的版本还是强化学习的版本,都会做以下事情(稍后会详细说明):

  • 指令微调不会为模型注入新的能力―― 所有的能力都已经存在了。指令微调的作用是解锁 / 激发这些能力。这主要是因为指令微调的数据量比预训练数据量少几个数量级(基础的能力是通过预训练注入的)。

  • 指令微调将 GPT-3.5 的分化到不同的技能树。有些更擅长上下文学习**,如text-davinci-003,有些更擅长对话,如 ChatGPT。

  • 指令微调通过牺牲性能换取与人类的对齐(alignment)。OpenAI 的作者在他们的指令微调论文中称其为 “对齐税” (alignment tax)。许多论文都报道了 code-davinci-002 在基准测试中实现了最佳性能(但模型不一定符合人类期望)。在code-davinci-002上进行指令微调后,模型可以生成更加符合人类期待的反馈(或者说模型与人类对齐),例如:零样本问答、生成安全和公正的对话回复、拒绝超出模型它知识范围的问题。

三、Code-Davinci-002和 Text-Davinci-002,

在代码上训练,在指令上微调

在code-davinci-002和text-davinci-002之前,有两个中间模型,分别是 davinci-instruct-beta 和 text-davinci-001。两者在很多方面都比上述的两个-002模型差(例如,text-davinci-001 链式思维推理能力不强)。所以我们在本节中重点介绍 -002 型号。

3.1 复杂推理能力的来源和泛化到新任务的能力

我们关注code-davinci-002和text-davinci-002,这两兄弟是第一版的 GPT3.5 模型,一个用于代码,另一个用于文本。它们表现出了三种重要能力与初代 GPT-3 不同的能力:

  • 响应人类指令:以前,GPT-3 的输出主要训练集中常见的句子。现在的模型会针对指令 / 提示词生成更合理的答案(而不是相关但无用的句子)。

  • 泛化到没有见过的任务:当用于调整模型的指令数量超过一定的规模时,模型就可以自动在从没见过的新指令上也能生成有效的回答。这种能力对于上线部署至关重要,因为用户总会提新的问题,模型得答得出来才行。

  • 代码生成和代码理解:这个能力很显然,因为模型用代码训练过。

  • 利用思维链 (chain-of-thought) 进行复杂推理:初代 GPT3 的模型思维链推理的能力很弱甚至没有。code-davinci-002 和 text-davinci-002是两个拥有足够强的思维链推理能力的模型。

    • 思维链推理之所以重要,是因为思维链可能是解锁突现能力和超越缩放法则 (scaling laws) 的关键。请参阅上一篇博文。

这些能力从何而来?

与之前的模型相比,两个主要区别是指令代码训练。具体来说

  • 能够响应人类指令的能力是指令微调的直接产物。

  • 对没有见过的指令做出反馈的泛化能力是在指令数量超过一定程度之后自动出现的,T0、Flan 和 FlanPaLM 论文进一步证明了这一点

  • 使用思维链进行复杂推理的能力很可能是代码训练的一个神奇的副产物。对此,我们有以下的事实作为一些支持:

    • 最初的 GPT-3 没有接受过代码训练,它不能做思维链

    • text-davinci-001 模型,虽然经过了指令微调,但第一版思维链论文报告说,它的它思维链推理的能力非常弱 ――所以指令微调可能不是思维链存在的原因,代码训练才是模型能做思维链推理的最可能原因。


    • chatgpt属于人工智能还是机器人 chatgpt人工智能聊天机器人

      chatgpt,chatgpt怎么下载,chatgpt官网,chatgpt账号

      2022年以来,AI开始在很多贴近消费者的领域发挥越来越大的作用,之前我写过一篇文章《一分钟学会AI绘画和创作》,很多朋友纷纷尝鲜。

      在美国科罗拉多博览会的年度艺术比赛中获奖的AI绘画《太空歌剧院》

      最近一个月以来,OpenAI公司推出的智能机器人ChatGPT,又在科技界刮起了一阵旋风,很多人都开始积极尝试,连世界首富马斯克也参与其中。

      这些,都属于从AI绘画、AI制作视频、“虚拟人”等延续形成的“AIGC”(AI Generated Content, AI生成内容)的组成部分。今天,我还是按照“三分钟读懂”的风格,尝试用浅显易懂的方法介绍ChatGPT的来龙去脉。

      1、ChatGPT是什么?

      它是由总部位于美国旧金山的 OpenAI 人工智能研究实验室,推出的“新一代” AI,主要以网页的形式回答人类提出的各种问题和要求,其中包括:

      • 回答关于各行各业的问题
      • 按照要求写作文稿
      • 编小说,讲故事,甚至可以写诗、歌词
      • 给代码提出改进经验,甚至直接上手写代码
      • 等等等等。

      下面是一些例子,提问的是我,回答的是ChatGPT:

      2、看着还不错,不过过去其实已经有不少这样的AI对话服务了,从苹果的Siri,到微软的小冰,再到小度、小爱,我都是尝鲜用了几天就兴趣索然了,ChatGPT和TA们有什么区别呢?

      与过去的AI服务相比,ChatGPT具有几个明显的优点:

      • 可以协助创作内容,特别是对代码进行指导。注意,它并不是简单地从某个模版中选择内容,而是根据实时计算的结果提供答案。你给的信息越精准,它的回答也会更加有针对性。
      • 可以理解上下文。例如,在提问完毕一个问题之后,再以“就刚才的回答中,你指得xx到底是什么意思?”等形式,进行追问。(用过Siri的朋友应该知道这一点的重要性,不需要反复提供相同的信息)
      • 会根据用户的反馈,持续优化模型,答案的准确性、完整性与日俱进。
      • 更有“对话”的感觉,不得不说,ChatGPT在语言组织的逻辑性和系统性方面,有了显著的提高,感觉像是一个助理,甚至是老师在回答问题,可以说是滴水不漏。

      3、ChatGPT的原理是什么?它真的会思考吗?

      我在之前的《我看人工智能目前的发展现状》文中介绍过目前人工智能的工作机理。简单来说,“人工智能” 是“人工”训练出来的“智能”,它并不具备独立的知识和意识,或者说,它并不能理解用户问的问题或者任务到底是什么,而是根据之前训练的样本,给出概率最高的答案。(可以参考拙文《五分钟读懂联邦学习》和吴军老师的《数学之美》,对这方面的原理阐述得非常深入浅出。)在OpenAI所提供的官方材料上,提供了关于其机理的步骤说明:

      简单来说,ChatGPT跟所有的人工智能“虚拟人”一样,给出答案的精确度取决于样本规模(目前只限2021年之前的数据,不具备实时更新能力)、学习算法和算力,而不会像有些人认为的那样,会“自主意识”、“自主判断”。

      4、看起来,它似乎真的很强大,但是有没有什么不足和缺陷?我能用它来辅助学习和工作吗?

      几天的使用下来,我认为,ChatGPT 强的是逻辑分析和语言组织能力,适合询问它观点和态度。它对于事实是完全不检查的,所以不适合用来查询信息。

      显然,机器人提供的答案只是一个基础,甚至是一个“黑匣子”(无法分辨信息的来源和真实性)。与只是列出一堆链接的搜索引擎相比,机器人貌似斩金截铁地给了我们一个明确的选项。但是,这对于我们辨别真伪的能力提出了更高的要求。就获取信息的准确性而言,我们每个人是自己的“第一责任人”。

      OpenAI也在其官方资料中说明了ChatGPT的局限性:

      • 答案可能是错误的。
      • 可能会产生有害的指引或者有偏见的内容。
      • 因为数据样本仅限于2021年之前,所以对于世界的认知并不全面(不过我在使用中发现,ChatGPT正在快速补全2021年之后的数据样本,譬如上面关于新冠疫情的信息)。

      5、你说了这么多,我已经迫不及待了,到底怎么开始使用ChatGPT?它是免费的吗?

      目前,OpenAI提供了ChatGPT的免费演示应用,不需要安装任何软件,也不需要任何硬件条件,直接到这个网址运行即可。

      不过在登录时,会要求以OpenAI的账户注册、登录。在注册时,因为对手机号所在国家有限制,国内的朋友可能遇到一些困难,大家可以到知乎等网站搜索相应解决方案,在此不赘述。现在也有一些网站、应用提供了访问ChatGPT的中介服务,如果有需要,可以在公众号”崔博效率手册“后台留言“ChatGPT”获取。

      需要注意的是,OpenAI在启动时,会给出关于数据采集和隐私保护的说明。

      如上所述,ChatGPT会根据用户的提问、反馈,持续扩充自己的样本库,因而要注意:

      • 切忌在问题、对话中,泄露任何自己的个人信息。
      • 不要用其从事任何非法业务。
      • 对其给出的答案,只能作为参考,不能全信。(有句话说,无论是自动问答还是自动驾驶,AI最大的问题是:“不能坐牢”)

      6、关于包括ChatGPT在内的AIGC,有无相关的法律规定?

      除了关于网络传播、内容管理方面的常规法律法规以外,注意AIGC还涉及到两个特殊的监管点:

      • ChatGPT是通过大量的样本学习来提供答案的,这些“样本”原先的创作者,对于答案是否具备知识产权?这方面依然存在争议。在AI绘画、AI辅助编程领域,已经开始出现了这样的纠纷。有画家表示,一些AI绘画作品可以模仿起风格。在AI辅助编程领域,有些源代码是非开源的(或者协议有限制),那么被用于提供辅助答案,是否构成侵权?这是一个尚待厘清的领域。
      • 因为有人通过AI制作出栩栩如生的内容、音频、视频,用于非法目的(例如用现实人物生成虚拟演讲、用于诈骗等),2022年12月11日晚间,网信中国发布消息称,近日,国家网信办、工信部、公安部联合发布《互联网信息服务深度合成管理规定》。《规定》将「深度合成技术」定义为「利用深度学习、虚拟现实等生成合成类算法制作文本、图像、音频、视频、虚拟场景等网络信息的技术」,对于深度合成服务提供者和技术支持者提出了一系列规范要求。详细内容可以参考这里。

      本公众号的三分钟教学系列:

      • 五分钟读懂联邦学习
      • 三分钟了解量子信息科学的基础知识
      • 三分钟读懂NFT和数字藏品
      • 一分钟学会AI绘画和创作
      • 三分钟读懂个人养老金制度
      • 三分钟读懂元宇宙
      • 三分钟读懂氢能源
      • 三分钟读懂碳排放权交易
      • 三分钟的理发经济学
      • 三分钟读懂DEFI
      • 三分钟读懂个人破产
      • 三分钟学习如何加强英语口语
      • 三分钟读懂REITs
      • 三分钟读懂负油价
      • 三分钟读懂央行数字货币
      • 三分钟读懂大数据
      • 三分钟了解“中台”
      • 三分钟读懂物联网
      • 三分钟读懂区块链

      python鎬庝箞璋冪敤chatgpt 鐨刟pi chatgpt姒傚康杩樿兘鐐掍綔澶氫箙

      python什么东西,python教程,python环境变量的配置,python range函数

        周二各股指震荡收涨,短线或仍将震荡,可等待新的方向选择。

        近几日沪指、上证50指数持续缩量,而中证1000指数的成交量并未出现明显萎缩。这表示从权重股中撤离,在集中火力炒中小盘股。

        近期ChatGPT概念股持续活跃,也带动了整个人工智能、大数据等板块。虽然目前只是概念炒作,但其影响力还是很大的。从其中的个股来看,拓尔思(300229)连续两日冲高回落,今天盘中涨7%,最终跌4%,这是一个出现分化的信号,可能预示概念炒作难以持久。龙头汉王科技(002362)此前连续6个一字板,今日涨停开盘后,早盘开板并放出巨量,换手率高达31%。这应是有资金开始减仓。当前大盘来到反弹高位,ChatGPT概念有些生不逢时,预计该股难以成为翻几倍的大妖股,本周有可能会开板并见到阶段性高点。

        大盘短线或仍将震荡,可能还有小幅上冲空间,但确定性不好,后面大概率还会再度下探。

        31%。这应是有资金开始减仓。当前大盘来到反弹高位,ChatGPT概念有些生不逢时,预计该股难以成为翻几倍的大妖股,本周有可能会开板并见到阶段性高点。

        大盘短线或仍将震荡,可能还有小幅上冲空间,但确定性不好,后面大概率还会再度下探。(公 号“黑嘴终结者”)

      关注同花顺财经(ths518),获取更多机会