用chatgpt设计财务报表 chatgpt能用到税务系统里面吗

ChatGPT能不断进化吗 chatgpt有何过人之处

持续进化的能力,不断进化的人,不断的进化
1. ChatGPT是什么chatGPT是什么？这可能是最近被问的最多的一个。大家第一反应这应该是GPT系列的一个最新模型，普通大众可能更愿意把它看做是一个人工智能。实际上，它其实就是一个基于大规模语言模型的对话系统产品。官网对它定义十分的明确：Optimizing Language Models for Dialogue.最大的问题在于，它的背后究竟是一个什么？很多人都以为，chatGPT是一个单一模型，就如同GPT-1/2一样，应该是一个可以被加载和训练的。我承认，chatGPT的背后，是有一个像GPT-3一样的基础模型，但是其现在的性能表现，远远不是只有1个基础模型这么简单。因为我们默认的chatGPT是web UI界面，它至少是有一些外部工程代码的。举个例子，对于汉语和英语的反馈速度有质的差别，如果只是单一的模型统一编码了多语言，不会出现这种情况。因此，对我而言，chatGPT更像是一个完善的产品，而不是一个简单的模型。而且由于其训练过程的复杂和不透明，使得我们很难复现它。这在我后面的章节中会讲到。2. ChatGPT以及GPT系列模型ChatGPT不是一蹴而就突然出现的，它是有着长达5年以上的技术积累才走到这个地步的。之前网上讲了很多关于ChatGPT和它的前辈，比如比较出名的有拆解追溯GPT-3.5各项能力的起源。但是我认为真正需要了解ChatGPT的前世今生，还是需要去看openAI官方网站以及它们的论文。2.1 GPT-1/2/3首先我们先来看GPT-1到GPT-2以及GPT-3的变化。首先在2018年6月，发布了第一版GPT-1，使用的是transformer的decoder架构+任务微调的形式，但是整体上似乎没有什么特别出彩的地方。然后再到2019年2月，发布了第二版GPT-2，这时候他们优化了网络架构（如右图所示），并且使用了10倍大小的网络规模和8倍大小的预训练数据，并且去除了特定任务微调的形式从而获取prompt learning的能力。GPT-2确实有点东西，但是由于3个月前，BERT的出现，让它也没有当上一哥的位置。不过整体上应该接近后来的GPT-3系列模型了。在GPT-2的1年半以后，GPT-3发布了，它同样还是3个路线，更优的架构，更大的规模（100倍），更大的数据量（1000倍），真正训练出了一个超级巨无霸GPT-3。奠定了现在GPT帝国的基础。但是实际上，它和GPT-2没有太多本质的区别，包括训练方式，只是更大了。那么GPT-3有多大呢，大家可以看一下下面的图就可以知道了，需要注意的是，这里看到参数量的改变是一个log指数，可以看到熟悉的Bert-large模型和GPT-2模型。而GPT-3的175B按照官方说明，大概有350~500GB的显存需求，如果使用FP16加载该模型，大概需要至少5块A100（80G）才能够加载完成。而如果要从头开始训练，至少需要1000块A100才能够在可接受的时间（几个月）里训练出该模型。据传闻说，现在国内的大部分大规模语言模型还是处于GPT-2.5阶段，也就是说对标的是GPT-3，但是训练规模（1-10B）和数据量（几十G左右）还是在GPT-2的级别上。无论是模型规模还是语料质量，距离GPT-3都还有较大差距。需要注意的是，从GPT-3开始，其模型就不再完全公开了，只能通过API访问。2.2 GPT-3.5 (InstructGPT)然后我们再来看GPT3以后发生的事情。首先我们需要先介绍一下GPT-3以后最重要的一件事，那就是InstructGPT的出现，根据openAI官方网站上说明，InstructGPT包含三种训练方式，分别是有监督微调（Supervised Fine-Tuning, SFT），反馈变得更容易（Feedback Made Easy, FeedME）以及基于PPO算法的从人类反馈中进行强化学习（PPO）三个部分。因此，可以说，InstructGPT泛指的话，是包含红色的所有模型，而特指的话，则是指的davinci-instruct-beta。这一点尤为重要。至于这个FeedME,大家可以参考图片上的官方解释，个人理解可能是由纯人工反馈的指令微调，PPO则是更强调利用强化学习自动化指令微调。如果还不明白，大家可以参考下面chatGPT给出的解释：The explain of the FeedME:The sentence is talking about a type of AI model called “FeedME” models. These models are designed to make providing feedback (i.e. offering suggestions) easy, hence the name “feedback made easy”.The FeedME models are trained using a technique called “distillation”, where the best completions (i.e. the most accurate and appropriate responses) from all of the models developed by the organization are selected and used to train the FeedME models. This way, the FeedME models are able to incorporate the best responses from a variety of other models.The sentence also mentions that the organization’s models are generally trained using the best available datasets at the time of training. This means that the data used to train the models might change over time as better and more relevant data becomes available. Furthermore, it mentions that different engines (i.e. different models) that use the same training methodology might be trained on different data, which could result in variations in their performance and accuracy.The more details of FeedME:“Feedback Made Easy” (shortened to “FeedME”) is likely a term used by the organization to refer to their AI models that are designed specifically to provide feedback or make suggestions to users. These models are built with the goal of making it simple for users to receive feedback or recommendations, hence the name “Feedback Made Easy”.In practical terms, this might mean that these models are designed to be user-friendly and intuitive, with a focus on delivering quick, accurate, and helpful responses to users. For example, the models might be integrated into a chat interface or a website, allowing users to easily ask questions or provide input and receive feedback in real-time.The idea behind FeedME models is to make it easy for users to receive feedback, whether it be in the form of suggestions, recommendations, or answers to questions. By using distillation to incorporate the best completions from a variety of other models, the FeedME models are able to provide high-quality feedback to users, even when the data used to train the models changes over time.The function of it when training the ChatGPT:As a language model developed by OpenAI, I (ChatGPT) was not specifically trained using the “Feedback Made Easy” (FeedME) method mentioned in the previous sentence. However, I can explain how the FeedME method might be used to train a language model like myself.The FeedME method involves distilling the best completions from a variety of AI models and using that information to train a new model. In the context of a language model like ChatGPT, this might mean selecting the most accurate and appropriate responses generated by a number of different language models and using that information to train a new, improved language model.The goal of this process is to improve the performance of the new language model by incorporating the best responses from a variety of other models. This way, the new model is able to learn from the strengths of multiple models, rather than relying on a single source of training data.In summary, the FeedME method might be used to train language models like ChatGPT by distilling the best completions from a variety of other models and using that information to train a new, improved language model. The goal of this process is to improve the accuracy and usefulness of the new language model by incorporating the best responses from a variety of sources.好的，现在我们来顺着发展路线先看一下GPT-3之后各个模型的演化，确认的发展过程是实线（有报道的），猜测的部分为虚线。首先，在GPT-3的基础上，通过有监督的fine-tuning过程，诞生了davinci-instruct-beta模型。具体而言，也就是需要采样一些prompt，由人工给出真正的结果。这个在InstructGPT论文里写道，是有40个标注人员，标注了12.7K的样本。接着，通过FeedME产生了至少text-davinci-001和text-davinci-002两个模型版本。其中001版本应该是比较早期的，而002则是在code-davinci-002的基础上进行的进一步改进，融合了代码理解能力和自然语言理解能力。然后，最后融入了PPO阶段，完成了text-davinci-003。当然chatGPT应该也是完成了PPO阶段的，尤其是在对话方面进行了特别的优化（近期泄露的内部版本称之为text-chat-davinci-002，据传为chatGPT）。因此，chatGPT的所有能力来源应该都比较清楚了，我认为主要来源于以下5个方面吧。模型能力效果GPT-3自然语言基础建模自然语言理解，使得说话能够说的流畅自然Codex代码语言基础建模代码语言理解，能够使得完成代码相关任务，并习得长程依赖关系和一定的逻辑能力davinci-instruct-beta有监督的指令微调听从人类的指令生成答案text-davinci-001/002人类反馈的指令微调可以生成出人类更喜欢的答案text-davinci-003强化学习的指令微调进一步强化上面两个阶段的能力,对于chatGPT的话，可能更偏向于对话角度优化3. 复现chatGPT的难点现在国内各个大厂小厂但凡和人工智能挂钩的，都想复现属于自己的chatGPT，以获得第一个国内chatGPT的市场。很多人都发声说，再造一个chatGPT没有那么困难。那么我从自身经验去思考，如果要复现chatGPT，可能需要注意的有哪些部分。这些部分并不是不可以实现的，只是成本高或者容易被忽略的地方。3.1 海量的数据从GPT-3公开发表的论文里讲到，其用于预训练的文本达到了45TB，这是一个非常巨大的数字，关键是其质量应该是非常高的。据查看的一些资料显示，在中文数据上，全球最大的语料库是WuDaoCorpora，据说有3TB的中文语料（200G开放使用）。而且，也有人指出，更多样化的token也能够让模型学习的更充分。如果只是训练一个汉语版的chatGPT，除了一些搜索和社交巨头，能够获取足够数据的也只有一些垂直领域的公司了。关键是公司运营期间获得的文本数据是否可以被用于训练模型，这是一个法律和道德问题。（即使是codex训练来源于开源的github，也同样遭受了大量的非议。）当然，如果是垂直领域，未必需要这么大的数据量也未尝不可。3.2 超大规模的模型架构根据之前的说明chatGPT与GPT-3的规模相同，都是1750B的参数量，那么它需要的硬件设备是什么样子的？根据chatGPT自己讲述以及同行人的参考，其显存占用量应该在350GB~500GB之间，如果仅仅是为了推理，那么5张A100（80G）的GPU就可以足够使用（根据同规模的OPT175B需要16张V100推算）。但是如果是为了训练，可能需要1000张以上的A100的算力才能在可以接受的时间里获得训练结果（也有称微软和OpenAI构建了一台包括超过10000张GPU的超级计算机用于GPT-3的训练）。其训练成本大概在110-460万美元之间，根据估算，现有的定价对于OpenAI来说，应该会有75%的毛利。目前国内尽管有很多大模型，但是真正能够在CLUE等评测中的模型大多还在1-10B的级别，下表是一些中文大模型代表。模型规模WUDAO 2.01750BPanGu Alpha200BPLUG27BERNIE 3.010B3.3 深度人员参与（SFT，FeedME, PPO）相比较GPT-3，InstructGPT最大的特点在于通过Instruct的方式让人类深度参与模型的迭代，包括有监督微调，人类反馈微调和强化学习微调3个方法。无论哪种方法，都离不开大量的人工标注，并且需要一定的时间和真实样例作为原料输入。因此，即使可以复现一个ChatGPT，也是需要时间的。3.4 长期技术积累正如刚才所提及的那样，ChatGPT不是突然出现的，而是从GPT-1.0版本开始就已经完成大量的技术积累。从GPT-1.0,2.0,3.0，每一个版本迭代，他们都做了大量的实验，包括各种超参数的选择和模型大小的扩容。而我们大多数公司可能之前没有像OpenAI在预训练模型上拥有大量的预训练经验，直接去训练一个超大规模的模型也是有可能获得不到我们想要的那种效果的。3.5 良好的外部工程我们现在总以为，我们有数据，有模型架构，我们就可以拥有chatGPT。事实显然不是这样，如果想让它成为一个优秀的产品，而不是粗糙的学术模型，至少应该包括以下3个部分：1. 核心模型核心模型就是语言模型，可能是一个超大规模的单一模型，也有可能是一个带有很多小模块组成的模型集群。2. 辅助模型辅助模型有哪些？比如我们可以看到的reward model，还有大家容易忽略的安全检查模型等。这些都是保证了产品的长期正常的运营。而反观我们有些机构的模型匆匆发布，产生了大量的不安全的言论，这也是不负责任的表现。3. 工程代码良好的工程代码能给用户带来更好的用户体验，比如我们经常体验到的左边框的对话历史记录和意图识别等等，这些信息对于用户体验、模型改进都是非常有用的。另外，还有包括缓存，控制用户并发等等工程问题需要提前解决。要知道，chatGPT上线5天用户就破百万，2个月用户破1亿。这个增长速度已经是历史上的巅峰。3.6 及时的真实反馈这个真实反馈对于大家来说，看起来好像是chatGPT公开迭代的几次，而每次似乎都有一些更新。但是实际上，如果你看OpenAI发布的博客你就会发现，整个真实反馈是逐步从发布的产品中收集而来的，尤其是GPT-3以后，OpenAI就只提供了API，这使得它可以接触世界上所有使用GPT-3的样例，通过这些从API收集来的样例，再利用人工标注，就可以得到大量的高质量标注语料，为接下来的模型更新打下基础。这些真实反馈贯穿到了整个GPT-3.5系列之中。4. 小结距离我第一次玩ChatGPT也已经3个月了。回想起12月6日第一次使用它，我兴奋的一直玩到夜里3点钟。它的出现真的是惊艳了当时的我，甚至可以比肩科幻小说里的人工智能的感觉。早期只是为了体验，后来才逐步深入了解。从兴奋，到冷静，到辩证看待，再到期望未来，它总是那么一个过程，才能被我们接受。有些东西必须真正深入的研究，才能够知道它的本来面目。ChatGPT到底是神还是魔，是不是新的一轮科技革命的出现，我想OpenAI那群创造它的人比谁都清楚。正如我之前所说，我愿意将毕生精力奉献给人工智能，只为了获得一个可以一直陪伴我的AI朋友。我曾经以为这辈子都见不到这一天，现在ChatGPT的出现，缩短了好一段理想和现实的距离。――――――――――――――――版权声明：本文为CSDN博主「AI让世界更懂你」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。原文链接：https://blog.csdn.net/qq_35082030/article/details/128988965

chatgpt是通过什么技术研发的 chatgpt的底层技术逻辑

chatgpt,chatgpt官网,chatgpt国内能用吗,chatgpt账号
悠络客 2023-02-17 13:06 ・上海打开网易新闻查看精彩图片 2022年11月，人工智能公司OpenAI推出了一款啥都会的聊天机器人：ChatGPT。它能聊天、能翻译、能做题，还会写情书、写论文、写小说……功能强大到马斯克都表示“我们离强大到危险的 AI 不远了”。ChatGPT是平地起高楼吗？是横空出世吗？当然不是。伴随着人工智能领域不断更新迭代的研究及不断增长的算力，才有了今天震撼世界的ChatGPT。悠络客自成立以来一直致力于建立前沿深度学习和算法平台。今天，我们就从技术角度出发，立足基本概念和基础研究，循序渐进对ChatGPT及相关热点内容进行介绍。#1NLP（自然语言处理）NLP 的全称是 Natural Language Processing（自然语言处理）。它是人工智能的一个重要领域。顾名思义，该领域研究如何处理自然语言。常见的 NLP 任务有机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、关系抽取、阅读理解等等。NLP有两个核心的任务，分别是NLU自然语言理解（Natural Language Understanding）和NLG自然语言生成（Natural Language Generation）。NLU聚焦于使机器理解自然语言，NLG则是机器将非语言格式的数据转换为人类可以理解的自然语言。自然语言理解是人工智能领域皇冠上的明珠，NLP是人工智能赋能社会和赋能行业的硬核科技。“如果我们能够推进自然语言处理，就可以再造一个微软。”比尔・盖茨对自然语言处理在人工智能时代及未来社会发展中的重要性，给予中肯的定义。#2Transformer在Transformer面世之前，NLP领域的主流模型是循环神经网络RNN（Recurrent Neural Network）及其各种变体。RNN及其各种变体模型有两大问题：如果传递距离过长就会伴随梯度消失、梯度爆炸和遗忘问题，因此不能有效学习长距离的依赖关系；在处理序列时必须逐个词进行处理，后一个词要等到前一个词的隐状态输出以后才能开始处理，这样无法同时并行训练，导致训练模型时间过长。2017年6月，Google Brain发表了一篇论文：Attention Is All You Need（注意力就是你所需要的）。Transformer是这篇论文里提出的一种模型架构，Transformer基于Encoder-Decoder结构并加入了位置编码及Self-Attention机制。通过Self-Attention机制使得每个序列中的每个词都有全局的语义信息，因此Transformer处理长距离的依赖关系比RNN要好很多；同时由于对输入叠加了Positional Encoding，因此能一次接收整个句子中的所有词作为输入，并行计算后训练的时间相比RNN及其变体也大大缩短。作者将其用于NLP领域中的机器翻译，Transformer在英语-德语和英语-法语相关测试中夺得了SOTA（State-of-the-Art，最先进的）结果，且训练成本相对于以前的一些最好模型要少很多，只是它们的一小部分。从数学角度来说，NLP可以归为序列建模问题。所谓序列建模，就是要建模产生这个序列的概率分布，或者严格上说是其中的一些条件概率。Transformer的思想是开创性的，对序列建模领域有着深远的影响。Transformer被广泛应用于NLP的各个领域，后续在NLP领域全面开花的语言模型如GPT系列、BERT等，都是基于Transformer。Transformer的出色表现也促使许多人将其应用在计算机视觉领域，相比于传统的卷积神经网络(Convolutional Neural Networks,CNN)，视觉Transformer（Vision Transformers，ViT）依靠出色的建模能力，在多项视觉任务上取得了优异的性能。打开网易新闻查看精彩图片 #3OpenAI公司2015年，创业孵化器Y Combinator总裁山姆・阿尔特曼、PayPal联合创始人彼得・蒂尔、Linkedin创始人里德・霍夫曼、特斯拉CEO埃隆・马斯克等人出资10亿美元创立OpenAI，旨在实现安全的通用人工智能（AGI）并造福人类。OpenAI起初是一个非营利组织，但在2019年成立OpenAI LP子公司，目标是盈利和商业化，并引入了微软的10亿美元投资。OpenAI诞生的初衷，部分原因就是为了避免谷歌在人工智能领域形成垄断。OpenAI的主要成就有：本文后续即将重点介绍的在NLP领域大放异彩的GPT系列；研发和比较强化学习算法的OpenAI Gym工具包；在游戏领域击败Dota2世界冠军的OpenAI Five；连接文本和图像的神经网络CLIP；从文本生成图像的神经网络DALL・E& DALL・E2等。#4GPT（生成式预训练）2018年6月，OpenAI发表了一篇论文：Improving Language Understanding by Generative Pre-Training(通过生成性预训练提高语言理解能力)。GPT全称是Generative Pre-Training（生成式预训练），来自于这篇论文标题。该论文提出了一种半监督学习方法，采用了Pre-training + Fine-tuning的训练模式，致力于用大量无标注数据让模型学习“常识”，以缓解标注信息不足的问题。其具体方法是在针对有标签数据训练Fine-tune之前，用无标签数据预训练模型Pre-Train，并保证两种训练具有同样的网络结构。打开网易新闻查看精彩图片如上图所示，训练分为两个阶段，第一个阶段是无监督形式的预训练，第二个阶段通过Fine-tuning的模式在监督形式下解决下游任务。GPT使用的Transformer结构也和原始的Transformer有所差异，GPT使用了单向的Transformer来完成预训练任务，将Encoder中的Self-Attention替换成了Masked Self-Attention，如上图左侧所示。使用Masked Self-Attention的目的，是使得句子中的每个词，都只能对包括自己在内的前面所有词进行Attention。GPT在Transformer的运用和二阶段训练方式上做出了很好的探索，也取得了非常不错的效果，为后续的研究铺平了道路。#5BERT模型（以Transformers为基础的双向编码表达器）2018年10月，google发表了一篇论文：BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding（BERT：用于语言理解的深度双向变换器的预训练）。BERT的全称是Bidirectional Encoder Representations from Transformers（以Transformers为基础的双向编码表达器）。BERT和GPT类似的地方在于都是基于“预训练+fine tuning”的模式，在模型规模相当的情况下，BERT在分类、标注等任务下都获得了更好的效果，原因在于BERT采用的是不经过Masked的Transformer块，这样BERT就可以看见整个句子，即BERT不仅可以看到当前词之前的所有词，也能看到当前词之后的所有词，这也是双向的含义所在。GPT的预训练任务只需要预测下一个词即可。由于BERT能看见整个句子，即BERT是知道参考答案的，因此BERT无法采用和GPT一样的预训练任务来训练模型。BERT论文中提出了两个预训练任务：Masked LM类似于完形填空，训练时随机抹去一句话中的一个或者几个词，然后根据剩余词汇预测被抹去的几个词分别是什么；Next Sentence Prediction类似于句子重排序，通过判断两句话的前后句关系，让模型能够更准确的刻画语句乃至篇章层面的语义信息。通过对这两个任务进行联合训练，使模型输出的每个词的向量表示都尽可能全面准确地表达输入文体的整体信息。从以上描述可知，BERT是一个自编码语言模型，采用了去噪自编码的思路，随机MASK掉的词就是加入的噪音，训练的目的就是如何去噪。而GPT是一个典型的自回归语言模型，根据上文内容预测下一个可能跟随的词。GPT的缺点是只能利用上文的信息（对比BERT，GPT缺失了下文信息），优点则是在NLG任务中有优势，因为GPT的训练过程和NLG的应用过程是一致的。这也是GPT的后续系列中没有引入双向编码表达器的原因所在。最后的实验表明BERT模型的有效性，并在11项NLP任务中夺得 SOTA（State-of-the-Art，最先进的）结果。对于NLU任务，BERT较之GPT是有优势的。#6GPT-22019年2月，OpenAI又发表了一篇论文：Language Models are Unsupervised Multitask Learners (语言模型是无监督的多任务学习者)，该论文介绍了 GPT 的升级版本GPT-2。GPT-2相对GPT的第一个主要改进是规模更大、使用的训练数据更多。从模型结构上比较，GPT-2与 GPT 相比几乎没有什么变化，只是GPT-2更大更宽，GPT是12层的Transformer，BERT最深是24层的Transformer，GPT-2则是48层。GPT-2的预训练数据集叫WebText，是OpenAI从网上爬下来的一大堆语料，有800万左右的文档，40G的文本；而GPT使用的训练数据集大小在5GB左右。第二个主要改进在于，GPT-2取消了Fine-tuning的步骤。也就是说GPT-2采用了一阶段的模型（预训练）代替了二阶段的模型（预训练+ Fine tuning）。在预训练阶段，GPT-2采用了多任务的方式进行学习，每一个任务都要保证其损失函数能收敛。不同的任务共享主干的Transformer参数，这样能进一步提升模型的泛化能力，因此在即使没有Fine-turning的情况下依旧有非常不错的表现。作者通过初步论证指出，足够大的语言模型是能够进行多任务学习的，只是学习速度要比监督学习慢得多。语言模型是能够学习某些监督学习的任务，并且不需要明确具体的监督符号。而监督学习由于数据量的关系通常只是无监督学习的一个子集，所以无监督学习的全局最小也必定是监督学习的全局最小，所以目前的问题变为了无监督学习是否能收敛。GPT-2可以完成多任务处理，这证明了半监督语言模型可以在“无需特定任务训练”的情况下，在多项任务上表现出色。该模型在零样本任务转移设置中取得了显著效果。模型参数大小对比：最大的GPT模型约1.17亿参数（117M）；最大的BERT约3.4亿参数（340M），最大的GPT-2约15亿参数（1542M）。#7算力单位pfs-day（petaflop/s-day）如果每秒钟可以进行10的15次方运算，也就是1 peta flops，那么一天就可以进行约10的20次方运算，这个算力消耗被称为1个petaflop/s-day。OpenAI曾训练过一个强化学习模型OpenAI Five并在2019年战胜了DOTA职业战队OG。该模型训练量达到800 pfs-day，OpenAI透露他们用了256块P100 GPU和12.8万个CPU核心，整整训练了10个月的时间。OpenAI Five的总练习量相当于打了45000年Dota，每天的训练量大概相当于人类打180年游戏。#8GPT-32020年5月，OpenAI发表了一篇论文：Language Models are Few-Shot Learners （语言模型是小样本学习者）。31位作者、75页、320万token、1750亿参数、数据集45TB，训练花了3640pfs-day，训练一次的费用保守估计是460万美元，总训练成本估计达到了1200 万美元。暴力出奇迹。此时微软已经投资OpenAI（2019年投了10亿美元），微软也在2020年9月22日宣布取得了GPT-3的独家授权。GPT-3的创新也是划时代的。不管是GPT或者GPT-2，下游任务都需要大量的样本。这不符合人类的习惯，人类只需要少量的示例甚至只需要说明就适应一个全新的NLP下游任务。而GPT-3追求的就是人类这种无缝融合和切换多个任务的能力。GPT-3证明了通过增大参数量就能让语言模型提高下游任务在Few-Shot设置下的性能。传统的Fine-tuning方式一般流程是：先下载某个开源的预训练模型或自研预训练模型；收集特定任务的标注数据，在预训练模型上进行Fine-tune训练（此过程是需要进行参数更新的）；上线推理。下图摘自GPT-3论文，GPT-3提出了In-context learning的三种方式，Zero-shot表示仅需给出任务描述，One-shot表示仅需给出任务描述和一个例子，Few-shot表示仅需给出任务描述和少量的例子，这三种方式都不再需要进行参数更新，仅需要把少量标注样本作为输入文本的上下文，GPT-3即可输出答案。打开网易新闻查看精彩图片 GPT-3在多个数据集上测试了没有Fine-tune过程的性能表现。整体上，GPT-3在Zero-shot或One-shot设置下能取得尚可的成绩，在Few-shot设置下有可能超越基于Fine-tune的SOTA模型。Zero-shot和One-shot设置的GPT-3能在快速适应和即时推理任务（单词整理、代数运算和利用只出现过一次的单词）中拥有卓越表现。Few-shot设置的GPT-3能够生成人类难以区分的新闻文章，但是在自然语言推理任务（如ANLI数据集）上和机器阅读理解（如RACE或QuAC数据集）的性能有待提高。#9InstructGPT2022年3月，OpenAI发表论文：Training language models to follow instructions with human feedback （遵循人类反馈指令来训练语言模型）。InstructGPT是ChatGPT的姊妹模型（此句源自ChatGPT的官方博客）。因为ChatGPT论文还没有放出，因此我们认为，ChatGPT和InstructGPT在实现细节上有最大的相似度。之前的大语言模型的输出和我们的期待可能会不一致或者不匹配（例如可能会生成错误的、甚至有害的输出）。原因是语言模型的建模目标是“预测当前语境下的下一句话”，而不是“安全且忠实的完成用户的命令”，因此大模型需要进行alignment，来规范模型的“言行举止”，使模型能够helpful、honest、harmless。InstructGPT基于GPT-3，使用Reinforcement Learning from Human Feedback（RLHF），模型训练中加入了人类的评价和反馈数据，而不仅仅是事先准备好的数据集。为了使生成的文本更容易被人理解，OpenAI招募了人类训练师，在训练过程中，人类训练师扮演了用户和人工智能助手的角色。打开网易新闻查看精彩图片如上图所示，InstructGPT在一个预训练好的GPT-3模型的基础上，应用了如下三个步骤：收集人类训练师打标的演示数据（demonstration data），并根据这个数据集训练一个监督策略。人类训练师针对不同的提示语重写期望输出行为的演示答案，这样我们获得了一个在输入提示分布上所期望行为的规范数据集，然后基于这个数据集使用监督学习算法对一个预训练好的GPT-3模型进行调优。收集人类训练师针对同一个提示语的多个输出进行排序打标后的数据（comparison data），并根据这个数据集训练一个奖励模型。一般来说，对于每一条提示语，模型可以给出多个答案；或者对于多个不同的语言模型，同一个提示语，也可以得到多个答案。人类训练师对一个给定提示语的不同输出，以人类思考交流习惯为依据进行排序，由此再收集了一个比较数据（comparison data）集。然后依据此数据集，继续训练一个奖励模型，用来预测人类偏好的输出，由此帮助模型寻出最优答案。使用PPO（Proximal Policy Optimization）算法对奖励模型进行策略优化。使用奖励模型的输出作为标量奖励，再使用PPO算法对监督策略进行调优。步骤2和步骤3可以反复迭代。基于当前最好的策略，收集更多的比较数据，然后用来训练一个新的奖励模型和一个新的监督策略。InstructGPT的最终实验结果好于GPT-3，InstructGPT生成的结果，在真实性、无害性、有用性方面都有了很大的提高（但是对偏见这种问题依然没有改善）。#10ChatGPT : Optimizing Language Models for Dialogue（一种优化的对话语言模型）2022年12月，OpenAI发布了ChatGPT模型及相关的blog。Blog地址：https://openai.com/blog/chatgpt/ChatGPT的论文还没有放开。我们在此先奉上官方blog第一段的字面翻译：打开网易新闻查看精彩图片一种优化的对话语言模型我们训练了一个名为ChatGPT的模型，它以对话的方式进行交互。对话格式使ChatGPT能够回答后续问题、承认错误、质疑不正确的前提和拒绝不适当的请求。ChatGPT是InstructGPT的姊妹模型，后者经过训练，可以遵循提示中的指令并提供详细的响应。官方blog中提供了和InstructGPT论文中非常相似的一张图（如下所示）。对比InstructGPT论文可知ChatGPT应该和InstructGPT一脉相承，在模型的训练方式上非常相似，只是在一些细节上进行了调整。打开网易新闻查看精彩图片本质上ChatGPT是一款由AI驱动的聊天机器人，在网友的一系列测试中表现了惊人的能力：流畅对答、写代码、写剧本、辩证分析问题、纠错等等，甚至让记者编辑、程序员、律师等从业者都感受到了威胁，更不乏其将取代谷歌搜索引擎之说。通俗来讲，ChatGPT能做到什么？能像真正的人一样跟你聊天，能翻译、能做题、能考试、能作曲、能撰文案、能编代码、能写论文、能构思小说、能写工作周报、能写视频脚本……等等等等，它能做的事情实在是太多了，并且它可能比相当多的人做得还要好。或许在未来， ChatGPT类型的人工智能会取代许多类别的工作岗位。当然，ChatGPT也不是无所不能的。例如ChatGPT依赖于其训练数据中的统计规律，且不会在网络上抓取时事信息（对比谷歌），所以对于最新的事件它没法进行有效的答复，同时由于它的训练数据中关于2021年之后的数据相对较少，所以它对这个时间点之后的世界了解有限，在输出的准确性上也会有所降低；ChatGPT的认知建立在虚拟训练文本上，没有跟实时数据库或信息连接，ChatGPT在某些问题的回答上会出现致命性错误，看似有逻辑的表达实则为错误的信息输出；ChatGPT 的奖励模型围绕人类监督而设计，可能会过度优化，训练数据也影响了ChatGPT的写作风格，它喜欢对所有内容进行冗长的回复，经常重复使用特定的短语；此外，训练数据也可能存在偏差，和所有NLP模型一样，由于其知识库受限于训练数据，ChatGPT可能产生负面、不准确甚至言语过激的内容。#11AIGC（AI生产内容）互联网平台的内容生产模式，经历过两个时代。第一个时代是PGC(Professionally-Generated Content)&OGC(Occupationally-Generated Content)，即专家生产内容与专业生产内容。举两个例子，我们在爱奇艺上看到的电视剧《狂飙》，是专业的演员参与、专业的团队制作的；我们在人民网上看到的新闻报道，是专业的记者写的。第二个时代是UGC(User Generated Content)，即用户生产内容。相对应的例子，如抖音、各种blog、小红书上的大部分内容，都是普通用户自己创作生成的。第三个时代即将到来，我们称之为AIGC（AI-Generated Content），即AI生产内容。而ChatGPT的出现以及其展现的能力，对文字模态的AIGC应用有着重要的意义。#12期待中的GPT-4ChatGPT不会是这一系列语言模型的尽头。在其论文放开之前，我们称chatGPT建立在GPT-3.5之上。我们也对未来的GPT-4充满了期待。甚至有人说，“如果GPT-4能充分通过图灵测试，我们不应该感到惊讶。”所有过往，皆是序章。未来已来，让我们拭目以待……PS.为了方便大家阅读，我们已将文中提到的所有论文下载打包。关注我们，后台发送“论文合集”即可免费下载所有论文。打开网易新闻查看精彩图片打开网易新闻查看精彩图片特别声明：本文为网易自媒体平台“网易号”作者上传并发布，仅代表该作者观点。网易仅提供信息发布平台。

本文地址： https://www.xxs100.com//show-396991.html