正在阅读：中文版ChatGPT：让文本生成更贴近真实中文版ChatGPT：让文本生成更贴近真实

chatgpt真的智能吗人工智能chatgpt走红全球科技圈

chatgpt,chatgpt是什么意思,chatgpt账号,chatgpt api

近期市场上最热的风口，自然是推出时长2个月，斩获上亿活跃用户的AI应用――ChatGPT，其用户增长的速度超过了当年的TikTok，一跃成为全球增速最快的应用。而在用户暴增之外，科技巨头的警惕追踪以及资本市场的关注，都使这一话题的热度更上一层楼。

图片来源：网络

人工智能概念作为科技行业长盛不衰的方向在市场中几经沉浮，如今的ChatGPT作为一款爆款AI应用问世，是炒作带来的昙花一现？还是AI时代到来的前兆？从股市角度来看，ChatGPT又能带来怎样的影响？

01 ChatGPT是什么？

ChatGPT是一款由OpenAI 团队研发的语言聊天机器人，于2022年11月30日向线上社区发布测试。以对话为载体的ChatGPT在测试与使用中表现出了远超过往聊天机器人的智能与性能，能够回答多种多样的日常问题，且在问题回答上更为全面，可以从多角度全方位进行回答阐述，因此在社区内迅速火爆。

乍听之下，似乎ChatGPT就是一款更为智能，更为先进的“siri”。但ChatGPT在知识积累、深度内容搜索，乃至于内容创作领域都表现出了远超过往人工智能的性能，甚至于可以被用于进行文书协作、代码编写和 debug、方案设计等诸多场景中，其应用性能在一定程度上能够替代部分市面上的办公软件。

（图片来源：网络）

以业内的视角来看，ChatGPT是一个包罗万象的数据库应用，但基于NLP技术的语言模型使得用户可以非常简单地使用这个庞大的数据库，而不需要经过对专业知识/专业工具的了解和学习，其便利性超过了搜索引擎和专业软件。用户能够感受到一种“万能性”，仿佛在和一个无所不知的人面对面交谈，并能够指示它帮你完成许多工作。

02 ChatGPT为何大火？

事实上，在ChatGPT走红之前，2022年中旬也曾有一项基于AIGC技术的应用在市场上走红大火，即AI作画模型Midjourney。两者均是人工智能技术实现突破后的产物，是从弱人工智能（ANI）走向强人工智能（AGI）的代表性产品。因此两者的走红也有一定的共同性，即便利性和商业化的可能性。

在NLP技术实现突破后的AI应用中，对来自现实世界中的模糊情报识别愈发精确，即对自然语言的处理能力突破，语音识别、图像识别、以及语言模型的升级使得AI应用能够“听懂”用户的需求，从而完成使用者的需求。而对这些数据的识别能力又能成为机器自我学习的基础，而不需要人工进行数据标注与修正，即存在一定程度上的“自我进化”。

而得益于AI的理解能力提升，AI在内容输出方面也从单一走向多元，且内容质量较过往大幅优化。为何ChatGPT和Midjourney会收获到大量的人气，是因为这两款应用输出的内容是“可用”的。Midjourney生成的绘画作品能够与一流画家的创作一较高下，而ChatGPT在数据收集，文字/代码生成的产物都具有较高的可用性，且具备一定的创作性、即能够对工作起到正向帮助，而并非用于娱乐。

03 目前ChatGPT面临着哪些困境？

当然，目前的ChatGPT也并非完美，依旧面临着一些发展瓶颈。目前英文版本的ChatGPT 数据截至2021年，而中文版本的ChatGPT 数据截至2020年，由于技术限制，ChatGPT的数据库版本是存在滞后的，且在语言识别方面，ChatGPT的数据库并不全面，且存在不少误差，若使用者通过诱导性的方式提出问题，是有可能导致模型“一本正经”的回答错误甚至凭空捏造的回答。

同时，为了维持这一语言模型所带来的用户体验，ChatGPT的使用以及模型训练都带有较高的成本。根据中信证券引用Azure进行的数据测算，ChatGPT 每一次生成答案的成本是谷歌搜索引擎每次搜索成本的3倍，在当前每天面对数亿用户的搜索请求，对公司而言将是巨大的成本。这也是为何OpenAI团队迅速推动应用商业化的原因。

尽管Midjourney由于作画的版权问题目前深陷困境，商业化进程受到了阻碍，但ChatGPT的模型在智能客服，搜索引擎等领域，均具有较好的商用场景，甚至有望对现有生态产生颠覆性影响，因此备受科技巨头“警惕”。目前OpenAI于2月1日发布ChatGPT付费订阅服务―ChatGPTPlus，推动商业化落地。若产品商业化顺利进行，或许会对现有市场产生巨大的冲击。

搜索引擎巨头谷歌表示，谷歌将在“未来几周或几个月”推出类似ChatGPT的基于人工智能的大型语言模型来对抗ChatGPT。而微软已经将 ChatGPT视为新一代技术革命，并宣布向ChatGPT开发者OpenAI追加投资数十亿美元，将其AI工具整合进Bing搜索引擎、Office全家桶、Azure云服务、Teams聊天程序等一系列产品中。

04 如何看待ChatGPT的崛起？

ChatGPT 已经在内容生成、搜索引擎优化、编程协助、智能客服等领域展现出巨大的潜力，但在巨大的训练及应用成本下，其商业化变现进程的加速势在必行。同时，随着越来越多的科技巨头在ChatGPT爆火的背景下纷纷入局，AIGC技术或将成为人工智能下一步的风口，商业化产品将不断涌现。

但为了达成AIGC技术的不断进化，相关产业链也会对人工智能芯片、大数据行业，甚至电脑设备行业提出更高的需求，因此也会带动AI芯片产业链、数据中心等产业链的发展，在市场缺乏主线的背景下，AIGC或许会成为未来一段时间的新主线。

但需要指出的是，这项技术目前并不成熟，在中短期内快速取代现有行业生态，比如替代客服、替代搜索引擎的可能性并不高，而成本端的问题也需要中长期唯独基础硬件设施的降价而实现普及化，这也给了各大科技巨头应对，跟风的时间。行业发展不会一蹴而就，而是存在一个缓慢变化的过程。

在这个过程中，必然有不少“伪概念股”在市场对风口的追捧中起飞。不可否认这也是短期获利的一种方式，但从长期来看，还是需要警惕“蹭热点”飞涨，并在潮水退去后独自裸泳的上市公司。ChatGPT 产生的鲶鱼效应已然引起了全球巨头的激荡，AI产业化、商业化的进程正在加速，关注掌握核心科技的科技巨头，静待AI生成内容时代的全面到来。

ChatGPT实现原理一文读懂chatgpt原理

chatgpt,chatgpt是什么意思,chatgpt官网,chatgpt api

作者?|?Marco?Ramponi?

编译?|?机器之心

大家好，这里是NewBeeNLP。

ChatGPT 发布以来，已经吸引了无数人一探究竟。但 ChatGPT 实际上是如何工作的？尽管它内部实现的细节尚未公布，我们却可以从最近的研究中一窥它的基本原理。

ChatGPT 是 OpenAI 发布的最新语言模型，比其前身 GPT-3 有显著提升。与许多大型语言模型类似，ChatGPT 能以不同样式、不同目的生成文本，并且在准确度、叙述细节和上下文连贯性上具有更优的表现。它代表了 OpenAI 最新一代的大型语言模型，并且在设计上非常注重交互性。

OpenAI 使用监督学习和强化学习的组合来调优 ChatGPT，其中的强化学习组件使 ChatGPT 独一无二。OpenAI 使用了「人类反馈强化学习」（RLHF）的训练方法，该方法在训练中使用人类反馈，以最小化无益、失真或偏见的输出。

本文将剖析 GPT-3 的局限性及其从训练过程中产生的原因，同时将解释 RLHF 的原理和理解 ChatGPT 如何使用 RLHF 来克服 GPT-3 存在的问题，最后将探讨这种方法的局限性。

大型语言模型中的能力与一致性

「一致性 vs 能力」可以被认为是「准确性 vs 精确性」的更抽象的类比。

在机器学习中，模型的能力是指模型执行特定任务或一组任务的能力。模型的能力通常通过它能够优化其目标函数的程度来评估。例如，用来预测股票市场价格的模型可能有一个衡量模型预测准确性的目标函数。如果该模型能够准确预测股票价格随时间的变化，则认为该模型具有很高的执行能力。

一致性关注的是实际希望模型做什么，而不是它被训练做什么。它提出的问题是「目标函数是否符合预期」，根据的是模型目标和行为在多大程度上符合人类的期望。假设要训练一个鸟类分类器，将鸟分类为「麻雀」或「知更鸟」，使用对数损失作为训练目标，而最终目标是很高的分类精度。该模型可能具有较低的对数损失，即该模型的能力较强，但在测试集上的精度较差，这就是一个不一致的例子，模型能够优化训练目标，但与最终目标不一致。

原始的 GPT-3 就是非一致模型。类似 GPT-3 的大型语言模型都是基于来自互联网的大量文本数据进行训练，能够生成类似人类的文本，但它们可能并不总是产生符合人类期望的输出。事实上，它们的目标函数是词序列上的概率分布，用来预测序列中的下一个单词是什么。

但在实际应用中，这些模型的目的是执行某种形式的有价值的认知工作，并且这些模型的训练方式与期望使用它们的方式之间存在明显的差异。尽管从数学上讲，机器计算词序列的统计分布可能是建模语言的高效选择，但人类其实是通过选择最适合给定情境的文本序列来生成语言，并使用已知的背景知识和常识来辅助这一过程。当语言模型用于需要高度信任或可靠性的应用程序（如对话系统或智能个人助理）时，这可能是一个问题。

尽管这些基于大量数据训练的大模型在过去几年中变得极为强大，但当用于实际以帮助人们生活更轻松时，它们往往无法发挥潜力。大型语言模型中的一致性问题通常表现为：

提供无效帮助：没有遵循用户的明确指示。
内容胡编乱造：虚构不存在或错误事实的模型。
缺乏可解释性：人们很难理解模型是如何得出特定决策或预测的。
内容偏见有害：一个基于有偏见、有害数据训练的语言模型可能会在其输出中出现这种情况，即使它没有明确指示这样做。

但具体来说，一致性问题源自何处？语言模型的训练方式本身就容易产生不一致吗？

语言模型训练策略如何产生不一致？

Next-token-prediction 和 masked-language-modeling 是用于训练语言模型的核心技术。在第一种方法中，模型被给定一个词序列作为输入，并被要求预测序列中的下一个词。如果为模型提供输入句子：

“The cat sat on the”

它可能会将下一个单词预测为「mat」、「chair」或「floor」，因为在前面的上下文中，这些单词出现的概率很高；语言模型实际上能够评估给定先前序列的每个可能词的可能性。

masked-language-modeling 方法是 Next-token-prediction 的变体，其中输入句子中的一些词被替换为特殊 token，例如 [MASK]。然后，模型被要求预测应该插入到 mask 位置的正确的词。如果给模型一个句子：

“The [MASK] sat on the ”

?它可能会预测 MASK 位置应该填的词是「cat」、「dog」。

这些目标函数的优点之一是，它允许模型学习语言的统计结构，例如常见的词序列和词使用模式。这通常有助于模型生成更自然、更流畅的文本，并且是每个语言模型预训练阶段的重要步骤。

然而这些目标函数也可能导致问题，这主要是因为模型无法区分重要错误和不重要错误。一个非常简单的例子是，如果给模型输入句子：

"The Roman Empire [MASK] with the reign of Augustus."?

它可能会预测 MASK 位置应该填入「began」或「ended」，因为这两个词的出现概率都很高。

一般来说，这些训练策略可能会导致语言模型在一些更复杂的任务中出现不一致，因为一个仅被训练来预测文本序列中的下一个词的模型可能不一定会学习其含义的某些更高级表征。因此，该模型很难推广到需要对语言更深入理解的任务。

研究人员正研究各种方法来解决大型语言模型中的一致性问题。ChatGPT 基于最初的 GPT-3 模型，但为了解决模型的不一致问题，使用了人类反馈来指导学习过程，对其进行了进一步训练。所使用的具体技术就是前面提到的 RLHF。ChatGPT 是第一个将此技术用于实际场景的模型。

那 ChatGPT 是如何利用人类反馈来解决一致性问题的呢？

从人类反馈中进行强化学习

方法总体上包括三个不同步骤：

有监督的调优：预训练的语言模型在少量已标注的数据上进行调优，以学习从给定的 prompt 列表生成输出的有监督的策略（即 SFT 模型）；
模拟人类偏好：标注者们对相对大量的 SFT 模型输出进行投票，这就创建了一个由比较数据组成的新数据集。在此数据集上训练新模型，被称为训练回报模型（Reward Model，RM）；
近端策略优化（PPO）：RM 模型用于进一步调优和改进 SFT 模型，PPO 输出结果是的策略模式。

步骤 1 只进行一次，而步骤 2 和步骤 3 可以持续重复进行：在当前最佳策略模型上收集更多的比较数据，用于训练新的 RM 模型，然后训练新的策略。接下来，将对每一步的细节进行详述。

步骤 1：监督调优模型

? ? ?第一步是收集数据，以训练有监督的策略模型。

数据收集：选择一个提示列表，标注人员按要求写下预期的输出。对于 ChatGPT，使用了两种不同的 prompt 来源：一些是直接使用标注人员或研究人员准备的，另一些是从 OpenAI 的 API 请求（即从 GPT-3 用户那里）获取的。虽然整个过程缓慢且昂贵，但最终得到的结果是一个相对较小、高质量的数据集（大概有 12-15k 个数据点），可用于调优预训练的语言模型。
模型选择：ChatGPT 的开发人员选择了 GPT-3.5 系列中的预训练模型，而不是对原始 GPT-3 模型进行调优。使用的基线模型是最新版的 text-davinci-003（通过对程序代码调优的 GPT-3 模型）。

为了创建像 ChatGPT 这样的通用聊天机器人，开发人员是在「代码模型」而不是纯文本模型之上进行调优。

由于此步骤的数据量有限，该过程获得的 SFT 模型可能会输出仍然并非用户关注的文本，并且通常会出现不一致问题。这里的问题是监督学习步骤具有高可扩展性成本。

为了克服这个问题，使用的策略是让人工标注者对 SFT 模型的不同输出进行排序以创建 RM 模型，而不是让人工标注者创建一个更大的精选数据集。

第二步：训练回报模型

这一步的目标是直接从数据中学习目标函数。该函数的目的是为 SFT 模型输出进行打分，这代表这些输出对于人类来说可取程度有多大。这强有力地反映了选定的人类标注者的具体偏好以及他们同意遵循的共同准则。最后，这个过程将从数据中得到模仿人类偏好的系统。

它的工作原理是：

选择 prompt 列表，SFT 模型为每个 prompt 生成多个输出（4 到 9 之间的任意值）；
标注者将输出从最佳到最差排序。结果是一个新的标签数据集，该数据集的大小大约是用于 SFT 模型的精确数据集的 10 倍；
此新数据用于训练 RM 模型。该模型将 SFT 模型输出作为输入，并按优先顺序对它们进行排序。

对于标注者来说，对输出进行排序比从头开始打标要容易得多，这一过程可以更有效地扩展。在实践中，所选择的 prompt 的数量大约为 30-40k，并且包括排序输出的不同组合。

步骤 3：使用 PPO 模型微调 SFT 模型

这一步里强化学习被应用于通过优化 RM 模型来调优 SFT 模型。所使用的特定算法称为近端策略优化（PPO），而调优模型称为近段策略优化模型。

什么是 PPO？该算法的主要特点如下：

PPO 是一种用于在强化学习中训练 agent 的算法。它被称为「on-policy」算法，因为它直接学习和更新当前策略，而不是像 DQN 的「off-policy」算法那样从过去的经验中学习。PPO 根据 agent 所采取的行动和所获得的回报不断调整策略；
PPO 使用「信任区域优化」方法来训练策略，它将策略的更改范围限制在与先前策略的一定程度内以保证稳定性。这与其它策略使用梯度方法形成鲜明对比，梯度方法有时会对策略进行大规模更新，从而破坏策略的稳定性；
PPO 使用价值函数来估计给定状态或动作的预期回报。价值函数用于计算优势函数，它代表预期收益和当前收益之间的差异。然后使用优势函数通过比较当前策略采取的操作与先前策略将采取的操作来更新策略。这使 PPO 可以根据所采取行动的估计价值对策略进行更明智的更新。

在这一步中，PPO 模型由 SFT 模型初始化，价值函数由 RM 模型初始化。该环境是一个「bandit environment」，它会产生随机 prompt 并期望对 prompt 做出响应。对于给定的 prompt 和响应，它会产生相应的回报（由 RM 模型决定）。SFT 模型会对每个 token 添加 KL 惩罚因子，以尽量避免 RM 模型的过度优化。

性能评估

因为模型是根据人工标注的输入进行训练的，所以评估的核心部分也基于人工输入，即通过让标注者对模型输出的质量评分来进行。为避免训练阶段涉及的标注者的判断过拟合，测试集使用了来自其它 OpenAI 客户的 prompt，这些 prompt 未出现在训练数据中。

该模型基于三个标准进行评估：