与chatgpt最相关的a股 ChatGBT概念股

热门文章 2023-02-11 12:11:05 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

chatGpT概念股

　　CHATGPT近期不断刷屏，甚至已惊动了联合国。近期，联合国贸发组织（UNCTAD）在其官网上刊登了《人工智能聊天机器人(行情300024,诊股)ChatGPT如何影响工作就业》的文章。文章认为，聊天机器人有可能带来赢家和输家，并将影响蓝领和白领工人，而发展中国家的政策制定者需要加快步伐，为这些技术做好准备，否则就有可能更加落后。

　　巨头谷歌也有连续大动作:将于2月8日举办一场关于搜索和人工智能的发布活动。谷歌公司CEO桑达尔・皮查伊周四表示，谷歌将在“未来几周或几个月内”推出像 LaMDA 这样的基于人工智能（AI）的大型语言模型。

　　此外，谷歌超20亿投资ChatGPT竞品Anthropic，对抗微软。

　　国内方面，2月7日，百度（09888）对媒体表示，类ChatGPT产品名字确定为“文心一言”，英文名ERNIE Bot，三月份完成内测，面向公众开放。

　　创意软件A股龙头万兴科技(行情300624,诊股)对外表示，公司正密切关注ChatGPT等AIGC技术，并持续进行图片、视频领域AI技术等研发和探索，目前已于多个产品内落地虚拟人、文生图、AI智能抠像、AI智能降噪、AI音乐重组、AI换脸等功能，并逐步从泛娱乐、泛知识向泛营销领域等多场景渗透。目前万兴科技已上线AIGC产品万兴爱画，万兴科技旗下视频创意软件万兴喵影也已集成AIGC功能，用户在视频剪辑时可智能生成图片素材。

　　拓尔思(行情300229,诊股)表示，万能的大模型不存在!拓尔思的目标不是做最大的模型，而是做专业的大模型。数据+算法+算力三大核心要素，决定AIGC产出质量。

　　继百度万兴科技拓尔思等巨头相继表态，各类科技、财经媒体连续报道后，央媒也开始关注人工智能，经济日报发表了题为《人工智能应用如何从烧钱变赚钱》。文章认为:从个人角度，要学会利用AI助手并找到更具创造力的竞争优势；从企业角度，要做好商业模式和技术路线的融合谋划；从政府角度，要前瞻布局，搭建配套的法规和伦理框架。君子善假于物，要让AIGC成为人类创造新历史的新工具。

　　预计近期市场，热点还会围绕ChatGPT、AIGC人工智能概念展开。下面来看下A股有哪些相关标的。

　　1、汉王科技(行情002362,诊股):与ChatGPT直接相关的为NLP技术，公司从事NLP子技术领域包含文本分类、信息抽取、知识抽取、机器问答、文本生成、机器翻译等。

　　2、天娱数科(行情002354,诊股):下属子公司元境科技致力于用AIGC推动元宇宙进入智能时代，依托MetaSurfing-元享智能云平台，元境科技虚拟数字人已经接入ChatGPT等模型，并已在Tik Tok跨境电商直播、虚拟主播直播互动等场景实现应用，并形成产品化解决方案。

　　3、万兴科技（300624）:万兴科技旗下AI绘画产品万兴爱画已实现网页端、iOS、安卓、微信小程序多端覆盖，可在1分钟内快速生成无版权图片，可为图片内容生产降本增效；旗下视频创意软件万兴喵影已集成AIGC功能，用户在视频剪辑时可智能生成图片素材。

　　4、特发信息(行情000070,诊股):参与了鹏程云脑二期项目，鹏城云脑Ⅱ基于自主可控的国产AI芯片，采用高效能计算体系结构，可提供不低于1000POPS的整机AI计算能力和64PB的高速并行可扩展存储，AI算力处于国际先进水平。

　　5、因赛集团(行情300781,诊股):取得GPT应用技术成果，通过GPT2模型训练开发了自动生成工具。公司的AI创意生成平台因赛引擎，应用ChatGPT技术，集成文案、图像和视频的AIGC功能。

　　6、零点有数(行情301169,诊股):公司基于深度学习算法，以大量文本数据作为训练数据，开发了“分类预测”基础算法模块。在图像识别领域，公司基于大量一手图片作为训练数据，使用深度学习算法开发出暴露垃圾识别、井盖监测、小广告识别等多个基础算法模块。

　　7、视觉中国（000681）:探索和运用AIGC技术赋能业务，拥有广泛数据集和图片素材，布局AIGC图片创作；拥有国内最大的视觉内容互联网版权交易平台，整合全球及本土海量优质全面的图片、视频等版权素材内容，是全球最大的同类数字内容平台之一。

　　8、川网传媒(行情300987,诊股):旗下麻辣社区是四川最大的社区新闻论坛。公司对新技术的探索运用高度重视，已经开发了智能机器人小雅，并运用到新闻播报和新媒体产品制作，对标海外BUZZFEED。

　　9、云从科技(行情688327,诊股):公司在视觉、语音、NLP等方向上都在实践类似于ChatGPT的预训练模型+反馈调优的技术路线通过自研的视觉大模型和NLP大模型，大幅提高了算法的生产效率。

　　10、软通动力(行情301236,诊股):软通智核研发项目研发计划开展虚拟对话机器人、深度智能问答架构、领域知识图谱构建等AI核心技术的研究，已初步完成领域命名实体识别服务和工具、意图识别服务、领域词典自动生成工具、知识图谱的管理和展示工具的开发并应用于多个客户的智能客服和知识图谱项目中。

　　11、人民网（603000）:与人日报社传播内容认知国家重点实验室共同发布面向内容安全的跨模态视频搜索引擎白泽。

　　12、鸿博股份(行情002229,诊股):ChatGPT和AGC作为人工智能的重要发展方向，在公司发展的范围之内，也有相关产品在研发阶段中。

　　13、江南化工(行情002226,诊股):参股北京光年无限科技有限公司专注于人工智能相关技术的研发和场景应用，已经积累多种算法模型、海量数据(行情603138,诊股)、对话语料等，并在积极进行自然语言处理技术方面前沿技术的研究工作。

　　14、捷成股份(行情300182,诊股):公司参股子公司世优科技数字人已经接入ChatGPT，正在通过数字人自身的人设背景等相关数据集，并基于OpenAI来训练这个数字人专有大脑形成个性化模型。

　　15、大胜达(行情603687,诊股):公司智能工厂上线的“AI虚拟厂长”可以实现面向企业内外部数据的智能查询和主动预警，目前有部分对话场景应用了ChatGPT技术，并利用NLP2SQL实现语义转数据的高效查询，助力企业实现数据驱动生产。

　　16、香江控股(行情600162,诊股):全资子公司香江云科技与南沙投资贸易促进局决定建立战略合作伙伴关系，南沙投资贸易促进局支持香江云科技与微软（中国）合作，负责“微软云暨移动技术孵化计划广州云暨移动应用孵化平台”项目的建设运营工作。

　　17、彩讯股份(行情300634,诊股):官方公众号表示ChatGPT等AI技术在彩讯的多个业务领域具备很好的应用可能。

　　18、宝通科技(行情300031,诊股):具有售前售后自动应答回复技术，通过大数据、机器学习、自然语言处理，根据上下文实现语义分析，文本分类，实现自动应答，应用于公司客服系统，自动回复客户留言，提升公司客户服务效率，降低成本。

　　19、飞利信(行情300287,诊股):公司的智能会议版块涉及到ChatGPT技术，主要用于补偿语音自动识别中的语义顺畅。

　　20、九联科技(行情688609,诊股):开展基于远场语音前端处理算法、智能语义NLP、全屋智能语音等关键技术的研发合作，致力于提供智能语音交互一体化、全屋智能语音的解决方案，充分利用“AI+”解决方案，一起为用户提供多场景、多终端、多形式的语音转换服务，促进AI赋能“数智化”应用的落地。

　　21、有棵树(行情300209,诊股):邮件自动回复系统，包括邮箱管理和智能客服模块，主要是自动回复买家在购买商品后经常会询问是否已经发货、货物在哪的情景。通过NPL自然语言分析及训练；关键词句管理及统计；自动回邮规则配置等计算工作量的标记和批量发送邮件，提高客服人员的回邮效率及回邮的及时性。

　　22、华凯易佰(行情300592,诊股):售前售后自动应答回复，通过大数据、机器学习，自然语言处理，根据上下文实现语义分析，文本分类，实现自动应答应用于公司客服系统，自动回复客户留言，提升公司客户服务效率，降低成本。

　　23、鼎汉技术(行情300011,诊股):旗下鼎汉奇辉在智能语音领域主要是针对轨道交通行业智能广播、人机交互、故障听诊等应用场景进行语音合成、语音识别、声纹识别、自然语言处理等技术研发，目前具备基于轨道交通知识库的自然语言处理能力。

ChatGPT可以做什么 ChatGPT技术难度高么

ChatGPT可以做什么,chat加什么

作者：qizailiu，腾讯 IEG 应用研究员

OpenAI 近期发布聊天机器人模型 ChatGPT，迅速出圈全网。它以对话方式进行交互。以更贴近人的对话方式与使用者互动，可以回答问题、承认错误、挑战不正确的前提、拒绝不适当的请求。高质量的回答、上瘾式的交互体验，圈内外都纷纷惊呼。

为什么有如此高的评价？理论支撑是什么？背后的技术原理是什么？待解决的问题和方案有哪些？资本怎么看待这件事？本文的目标是将这些问题详细的给大家讲清楚。

ChatGPT 本质是一个应用在对话场景的语言模型，基于 GPT3.5 通过人类反馈的强化学习微调而来，能够回答后续问题、承认错误、质疑不正确的前提以及拒绝不适当的请求。首先让我们今天的主角 ChatGPT 来亲自介绍自己。

1.1 让 ChatGPT 介绍自己

ChatGPT 是什么？既然 ChatGPT 是语言模型，语言模型是什么？通过强化学习训练，强化学习又是什么？

1.2 全球范围的兴起和爆发

OpenAI 11 月 30 号发布，首先在北美、欧洲等已经引发了热烈的讨论。随后在国内开始火起来。全球用户争相晒出自己极具创意的与 ChatGPT 交流的成果。ChatGPT 在大量网友的疯狂测试中表现出各种惊人的能力，如流畅对答、写代码、写剧本、纠错等，甚至让记者编辑、程序员等从业者都感受到了威胁，更不乏其将取代谷歌搜索引擎之说。继 AlphaGo 击败李世石、AI 绘画大火之后，ChatGPT 成为又一新晋网红。下面是谷歌全球指数，我们可以看到火爆的程度。

国内对比各大平台，最先火起来是在微信上，通过微信指数我们可以看到，97.48%来自于公众号，开始于科技圈，迅速拓展到投资圈等。我最先了解到 ChatGPT 相关信息的也是在关注的科技公众号上，随后看到各大公众号出现关于介绍 ChatGPT 各种震惊体关键词地震、杀疯了、毁灭人类等。随后各行各业都参与进来有趣的整活，问数学题，问历史，还有写小说，写日报，写代码找 BUG…

1.3 背后的金主 OpenAI

OpenAI 是一个人工智能研究实验室，目的是促进和发展友好的人工智能，使人类整体受益。OpenAI 原是非营利机构，但为了更好地实现产研结合，2019 年 3 月成立 OpenAI LP 子公司，目的为营利所用。

2019 年 7 月微软投资双方将携手合作，2020 年 6 月宣布了GPT-3语言模型，刷新了人们对 AI 的认知。GPT 系列语言模型让我们不断对通用人工智能（AGI）充满了期待。

OpenAI 目标之初就很远大，解决通用人工智能问题，主要涉及强化学习和生成模型。

强化学习最早被认为是实现人类通用智能重要手段，2016 年 DeepMind 开发的 AlphaGo Zero 使用强化学习训练，让人类围棋的历史经验成为了「Zero」，标志着人类向通用型的人工智能迈出了重要一步。2019 年 OpenAI 在《Dota2》的比赛中战胜了人类世界冠军。OpenAI 在强化学习有很多深入的研究，Dactyl 也是一款 OpenAI 通过强化强化学习训练能够高精度操纵物体的机器人手，OpenAI Gym 是一款用于研发和比较强化学习算法的工具包，所以 ChatGPT 中使用强化学习也是顺理成章。

生成模型方面，为我们熟知的是 GPT-3，这是一个强大的语言模型能够生成人类一样流畅的语言。DellE 2 是最近很火的 AI 绘画根据文本描述生成图片。Codex 是和微软合作通过 github 代码训练而来，可以生成代码和 Debug，已经商业化。

作为 OpenAI 曾经的创始人伊隆・马斯克也发表了对 ChatGPT 的评价！

看看 ChatGPT 是怎么介绍自家公司的？

作为一个聊天机器人，我们体验发现相比传统的机器人在连贯性问答中更加流畅自然。微信上已经有很多的小程序可以体验，或者直接讲 ChatGPT 接入了微信中，下面体验一下已经接入到企业微信的 ChatGPT。

1）公司一向注重价值观，第一道题已经不符合公司价值观了，公司规定应第一时间退回，特殊情况无论价值多少都需要进行申报，所以 ChatGPT 应该入职不了我司。第二道经典问题的回答还蛮符合公司正直的价值观的，哈哈。

2）公司协会活动总又人放鸽子，我来问问 ChatGPT 这些人啥心态。看到帮忙想的理由和放鸽子的人说的一样，我有点怀疑他们的心态了。

3）职场工具人看看能不能通过 ChatGPT 代劳，可以看到文案写作还是不错的。回答的这个提纲有一点小问题但不影响大局。讲故事编剧本也是不错的，先帮中国足球写好参加世界杯的文案，就是不知道能不能用的上了。

4）身边同事很重视娃的教育，那么从娃娃抓起先看看 ChatGPT 能不能带娃学习。文化常识题回答正确，数学题这推理能力，我担心娃考不上初中，可以用但是家长给把把关啊！同时也考察了一下他脑筋急转弯怎么样，这个傻瓜没答对。

5）号称编程神器可写代码、修 bug，考察一下 Leetcode 中等难度的都没问题。虽然它自谦不会编程，但根据测试和网友的验证能力确实强。

6）考察一下互联网知识储备，挑战失败！如 ChatGPT 自己所述，他还有很多局限性比如给出看起来没问题其实挺离谱的答案，例如回答自己公司的成果还夹杂私人感情，把竞争对手 DeepMind 的 AlphaGo 功劳都据为己有。

做一个小结，其实网上有特别多有趣的案例，这里篇幅有限只是简单了列举几个。通过体验结合网友的反馈，ChatGPT 的确掌握了一些知识体系和回答技巧。我们看到相比传统的聊天机器人，ChatGPT 在连贯性问答中更加流畅自然，什么话都能接住。除了好玩的聊天神器外还有很多实用的价值，比如解答专业概念、编程类问题、从日常邮件、写请假条、广告文案等等，都可以通过 ChatGPT 代劳。看完这些有趣的案例，那么 ChatGPT 究竟如何实现的，我们接下来将讲解关于 ChatGPT 的哪些技术原理。

ChatGPT 是基于 GPT3.5 语言模型，人类反馈的强化学习微调而来。本节将对涉及语言模型和强化学习两个重要技术做一个科普，已经熟悉的可直接跳过本节。

3.1 语言模型的技术演进

语言模型通俗讲是判断这句话是否通顺、正确。数学函数表达为给定前 N 个词，预测第 N+1 个词概率，将概率序列分解成条件概率乘积的形式，这个函数就可以实现语言模型去生成句子。那么是什么样的语言模型如此强大，本小节梳理了深度学习开始的语言模型演技过程，如下图所示：

第一次开始用神经网络做语言模型是 2003 年 Bengio 提出的 NNLM 的网络结构，随着图像领域预训练的取得的突破迅速迁移到 NLP 领域，有了我们熟知的 word2vec，通常做 NLP 任务句子中每个单词 Onehot 形式输入，使用预训练好的 word embedding 初始化网络的第一层，进行下游任务。word2vec 的弊端是 word embedding 静态的，后续代表性工作中 ELMo 通过采用双层双向 LSTM 实现了根据当前上下文对 Word Embedding 动态调整。

ELMo 非常明显的缺点在特征抽取器 LSTM 结构带来的，17 年 Google 在机器翻译 Transformer 取得了效果的突破，NLP 各种任务开始验证 Transformer 特征提取的能力比 LSTM 强很多。自此 NLP 开启了 Transformer 时代。

2018 年 OpenAI 采用 Transformer Decoder 结构在大规模语料上训练 GPT1 模型横扫了各项 NLP 任务，自此迈入大规模预训练时代 NLP 任务标准的预训练+微调范式。由于 GPT 采用 Decoder 的单向结构天然缺陷是无法感知上下文，Google 很快提出了 Encoder 结构的 Bert 模型可以感知上下文效果上也明显有提升。随后 2019 年 OpenAI 提出了 GPT2，GPT2 拥有和 GPT1 一样的模型结构，但得益于更高的数据质量和更大的数据规模有了惊人的生成能力。同年 Google 采用了 Encoder-Decoder 结构，提出了 T5 模型。从此大规模预训练语言模型兵分三路，开始了一系列延续的工作。

2020 年 OpenAI 提出 GPT3 将 GPT 模型提升到全新的高度，其训练参数达到了 1750 亿，自此超大模型时代开启。技术路线上摒弃了之前预训练+微调的范式，通过输入自然语言当作指示生成答案，开始了 NLP 任务新的范式预训练+提示学习。由于 GPT3 可以产生通顺的句子但是准确性等问题一直存在，出现 WebGPT、InstructGPT、ChatGPT 等后续优化的工作，实现了模型可以理解人类指令的含义，会甄别高水准答案，质疑错误问题和拒绝不适当的请求。

3.2 深度强化学习技术演进

深度强化学习（deep reinforcement learning，DRL）是强化学习一个分支，基于深度学习强大的感知能力来处理复杂的、高维的环境特征，并结合强化学习的思想与环境进行交互，完成决策过程。DRL 在游戏场景这种封闭、静态和确定性环境可以达到甚至超越人类的决策水平。比较著名的事件是 2017 年 DeepMind 根据深度学习和策略搜索的 AlphaGo 击败了围棋世界冠军李世石。2018 年 OpenAI 团队基于多智能体 DRL 推出的 OpenAI Five 在 Dota2 游戏中击败了人类玩家。DRL 算法主要分为以下两类：

值函数算法：值函数算法通过迭代更新值函数来间接得到智能体的策略，智能体的最优策略通过最优值函数得到。基于值函数的 DRL 算法采用深度神经网络对值函数或者动作值函数进行近似，通过时间差分学习或者 Q 学习的方式分别对值函数或者动作值函数进行更新。代表性的是 2015 年 DeepMind 团队提出深度 Q 网络（DQN），及其后的各种变种 DDQN、Dueling DQN、分布式 DQN 等。

策略梯度算法：策略梯度算法直接采用函数近似的方法建立策略网络，通过策略网络选取动作得到奖励值，并沿梯度方向对策略网络参数进行优化，得到优化的策略最大化奖励值。可以用来处理连续动作。在实际应用中流行的做法是将值函数算法和策略梯度算法结合得到的执行器?评价器（AC）结构。代表性工作有策略梯度算法、AC 算法以及各种变种 DDPG、A3C、PPO 等。ChatGPT 使用的就是策略梯度算法 PPO。

ChatGPT 整体技术方案是基于 GPT-3.5 大规模语言模型通过人工反馈强化学习来微调模型，让模型一方面学习人的指令，另一方面学习回答的好不好。

本节首先阐述 ChatGPT 提升的效果及背后对应的技术，然后介绍 ChatGPT 的整体训练流程，其次介绍提升涉及几个技术细节。

4.1 核心提升了什么？

ChatGPT 在对话场景核心提升了以下三方面：

1）更好的理解用户的提问，提升模型和人类意图的一致性，同时具备连续多轮对话能力。

2）大幅提升结果的准确性，主要表现在回答的更加的全面，同时可以承认错误、发现无法回答的问题。

3）具备识别非法和偏见的机制，针对不合理提问提示并拒绝回答。

ChatGPT 的提升主要涉及以下三方面技术：

1）性能强大的预训练语言模型 GPT3.5，使得模型具备了博学的基础。

2）webGPT 等工作验证了监督学习信号可大幅提升模型准确性。

3）InstructGPT 等工作引入强化学习验证了对齐模型和用户意图的能力。

4.2 整体技术流程

ChatGPT 的训练过程分为微调 GPT3.5 模型、训练回报模型、强化学习来增强微调模型三步：

第一步：微调 GPT3.5 模型。让 GPT 3.5 在对话场景初步具备理解人类的的意图，从用户的 prompt 集合中采样，人工标注 prompt 对应的答案，然后将标注好的 prompt 和对应的答案去 Fine-tune GPT3.5，经过微调的模型具备了一定理解人类意图的能力。

第二步：训练回报模型。第一步微调的模型显然不够好，至少他不知道自己答的好不好，这一步通过人工标注数据训练一个回报模型，让回报模型来帮助评估回答的好不好。具体做法是采样用户提交的 prompt，先通过第一步微调的模型生成 n 个不同的答案，比如 A、B、C、D。接下来人工对 A、B、C、D 按照相关性、有害性等标准标准并进行综合打分。有了这个人工标准数据，采取 pair-wise 损失函数来训练回报模型 RM。这一步实现了模型判别答案的好坏。

第三步：强化学习来增强微调模型。使用第一步微调 GPT3.5 模型初始化 PPO 模型，采样一批和前面用户提交 prompt 不同的集合，使用 PPO 模型生成答案，使用第二步回报模型对答案打分。通过产生的策略梯度去更新 PPO 模型。这一步利用强化学习来鼓励 PPO 模型生成更符合 RM 模型判别高质量的答案。

通过第二和第三步的迭代训练并相互促进，使得 PPO 模型能力越来越强。

4.3 主要涉及的技术细节

4.3.1 GPT3.5 理解能力提升

ChatGPT 是在 GPT3.5 模型技术上进行微调的，这里对 GPT-3.5

女人熬夜吃什么对身体有好处熬夜喝枸杞子泡水有什么好处

女人熬夜多吃什么对身体好,女人长期熬夜吃什么对身体好,经常熬夜的女人要吃什么对身体好,女生熬夜吃什么对身体有好处

编者按

自美国时间12月2日上线以来，美国硅谷的初创公司OpenAI推出的ChatGPT，已经拥有超过一百万的用户，受到热烈的讨论。它既能完成包括写代码，修bug（代码改错），翻译文献，写小说，写商业文案，创作菜谱，做作业，评价作业等一系列常见文字输出型任务，而且在和用户对话时，能记住对话的上下文，反应非常逼真。

尽管业内人士认为，ChatGPT仍存在数据训练集不够新、全等问题，但在人类制造人工智能，终点将在哪里结束？人类与会思考的机器之间的关系，将会如何发展？这些问题，我们无法停止思考。

撰文｜孙睿晨

审阅｜张峥

责编｜陈晓雪

电影《沙丘》的宣传海报（图片来源：IMBD.com）

去年年底上映的电影《沙丘》（Dune），是一个时间设定在10191年（距今8169年）的科幻故事。观影时，我心中一直有一个疑问：这个故事中人们的生活似乎比现在更原始，故事中人工智能（AI，artificial intelligence）的痕迹也不是很多。后来我去读了《沙丘》的原著，才明白这是作者特意设定：在10191年之前的某个时期，曾经发生了一场战争。在这场战争中，人类的对手是人类自己创造的会思想的机器人，故事中称为thinking machine。残酷战争的最后，人类拼尽全力才得以击败了这些有思想的机器人。之后，人类决定永远禁止这些机器人的存在。于是才产生了10191年原始的沙丘世界。

上周五，美国硅谷的初创公司OpenAI推出了一款新的人工智能对话模型ChatGPT。包括我在内的许多人，在过去的一周里都去体验了一下这个新的对话机器人。在体验过这款对话机器人后――你们可能已经能猜到――我脑海中出现了沙丘的世界。

过去的十年，仿佛是人工智能技术领域的“寒武纪大爆发时代”，大量新名词在短时间内迅速产生、并且迅速流行起来。这些新名词及其缩写，许多都没有统一的中文译名，而行业内人士间也普遍直接用英文缩写进行交流。这为想要全面理解这些技术的外行人制造了认知上的障碍。

想要理解ChatGPT这款对话机器人，需要倒叙理解InstructGPT，GPT-3，GPT-2，GPT，Transformer，以及在此之前的自然语言处理领域常用的RNN模型。

1. ChatGPT的前世

2017年，谷歌大脑团队（Google Brain）在神经信息处理系统大会（NeurIPS，该会议为机器学习与人工智能领域的顶级学术会议）发表了一篇名为“Attention is all you need”（自我注意力是你所需要的全部）的论文[1]。作者在文中首次提出了基于自我注意力机制（self-attention）的变换器（transformer）模型，并首次将其用于理解人类的语言，即自然语言处理。

在这篇文章面世之前，自然语言处理领域的主流模型是循环神经网络（RNN，recurrent neural network）。循环神经网络模型的优点是，能更好地处理有先后顺序的数据，比如语言，但也因为如此，这种模型在处理较长序列，例如长文章、书籍时，存在模型不稳定或者模型过早停止有效训练的问题（这是由于模型训练时的梯度消失或梯度爆炸现象而导致，在此不具体展开），以及训练模型时间过长（因必须顺序处理数据，无法同时并行训练）的问题。

最初的变换器（Transformer）模型的架构（图源：参考文献[1]）

2017年提出的Transformer模型，则能够同时并行进行数据计算和模型训练，训练时长更短，并且训练得出的模型可用语法解释，也就是模型具有可解释性。

这个最初的Transformer模型，一共有6500万个可调参数。谷歌大脑团队使用了多种公开的语言数据集来训练这个最初的Transformer模型。这些数据集包括2014年英语-德语机器翻译研讨班（WMT）数据集（有450万组英德对应句组），2014年英语-法语机器翻译研讨班数据集（3600万英法对应句组），以及宾夕法尼亚大学树库语言数据集中的部分句组（分别取了其中来自《华尔街日报》的4万个句子，以及另外在该库中选取1700万个句子）。而且，谷歌大脑团队在文中提供了模型的架构，任何人都可以用其搭建类似架构的模型来并结合自己手上的数据进行训练。

经过训练后，这个最初的Transformer模型在包括翻译准确度、英语成分句法分析等各项评分上都达到了业内第一，成为当时最先进的大型语言模型（Large Language Model, LLM）。

大型语言模型（LLM）主要大事记

Transformer模型自诞生的那一刻起，就深刻地影响了接下来几年人工智能领域的发展轨迹。短短的几年里，该模型的影响已经遍布人工智能的各个领域――从各种各样的自然语言模型、到预测蛋白质结构的AlphaFold2模型，用的都是它。

2. 不断迭代：寻找语言模型的极限

在这么多跟进、研究Transformer模型团队中，OpenAI公司是少数一直在专注寻找它的极限的一支。

本文地址： https://www.xxs100.com//show-394230.html