技术分享教程

双十一活动 2023-03-20 14:57:48 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

2023-03-11 10:17:25
ｚｚ

【【微信】】是在大量文本数据语料库上进行预训练的，其中包括书籍、网站和其他形式的基于文本的信息。这种预训练允许【【微信】】学习语言模式和结构，根据用户输入生成连贯的自然语言文本。预训练过程之后是微调，其中模型在特定任务（例如问答、文本生成和对话）上进一步训练。在微调期间，模型在特定于任务的较小数据集上进行训练。这种微调允许模型专注于特定任务并生成更准确和相关的文本。

训练模型后，它可以通过为其提供输入提示来生成文本。输入提示可以是问题、语句或任何其他形式的文本，模型将根据在训练期间学到的信息生成响应。生成的响应将是连贯的自然语言文本，它是根据模型在预训练期间学习的语言模式和结构生成的。例如，如果用户提供输入提示“法国的首都是什么？”，【【微信】】将生成响应“法国的首都是巴黎”。此响应是根据【【微信】】了解到的有关地理位置与其首都之间关系的信息生成的，这些信息是在预训练和微调期间学到的。

Transformer架构是【【微信】】模型的主干，允许模型生成类似人类的文本。

Transformer体系结构称为“转换器”，因为它使用自注意机制将输入数据“转换”为适合生成文本的表示形式。自我注意机制允许模型权衡不同输入数据部分的重要性，使其能够生成更准确和相关的文本。在 Transformer 架构中，输入数据由神经网络的多层处理，每层都使用自注意机制将输入数据转换为新的表示形式。然后将每层的输出传递到下一层，重复该层，直到最后一层生成输出文本。

Transformer架构的每一层都包含两个子层：多头自注意力机制和位置前馈网络。多头自我注意机制用于权衡输入数据不同部分的重要性。位置前馈网络用于处理加权输入数据并生成新的表示。多头自注意力机制是作为一系列注意力头实现的，每个注意力头对输入数据执行单独的注意力机制。将注意头组合在一起以产生最终输出，然后将其传递到位置前馈网络。位置前馈网络是一个完全连接的神经网络，它将多头自注意力机制的输出作为输入并生成新的表示。位置前馈网络旨在计算高效且易于训练，这使其成为Transformer架构的重要组件。

预训练对于创建【【微信】】模型至关重要，并将其与其他对话 AI 系统区分开来。预训练是在针对特定任务微调模型之前，在大量数据上训练模型。通过在大型文本语料库上预训练模型，该模型可以学习人类语言的模式和结构，这使得它更有能力生成类似人类的文本。

【【微信】】在各种文本来源上进行了预训练，包括书籍、新闻文章、维基百科文章和网页。用于预训练的大量文本数据使模型能够学习各种样式和流派，使其非常适合在各种上下文中生成文本。

【【微信】】的预训练数据也经过精心策划，以确保模型能够接触到高质量、编写良好的文本。这很重要，因为预训练数据的质量直接影响生成的文本的质量。例如，如果预训练数据包含错误、语法错误或低质量文本，则模型生成高质量文本的能力将降低。

预训练是一个计算密集型过程，需要大量的计算资源。为了预训练【【微信】】模型，OpenAI 使用了大量的 GPU 集群，允许模型训练相对较短的时间。预训练过程完成后，将针对特定任务对模型进行微调。微调是调整模型权重以更好地适应手头的任务。例如，如果任务是生成对话文本，则可以对模型进行微调以创建更多对话文本。

微调是调整预先训练的【【微信】】模型的权重，以更好地适应特定任务。微调过程至关重要，因为它允许针对特定用例自定义模型，从而提高性能。

微调的主要挑战之一是找到用于微调的适当数据量。如果使用的数据太少，模型可能无法学习手头特定任务的模式和结构。另一方面，如果使用了太多数据，模型可能会过度拟合训练数据，这意味着它在新数据上的表现会很差。

微调的另一个挑战是选择正确的超参数。超参数是控制模型行为的值，例如学习率、层数和神经元数。选择正确的超参数至关重要，因为它会显著影响模型的性能。

为了克服这些挑战，研究人员和从业者已经开发了几种技术来帮助微调【【微信】】模型。最流行的技术之一是迁移学习，它涉及使用预先训练的模型作为起点，然后针对特定任务微调模型。迁移学习允许模型利用从预训练数据中学到的知识，从而实现更快、更有效的微调。

另一种帮助微调【【微信】】模型的技术是主动学习。主动学习是一种半监督学习方法，允许模型从标记和未标记的数据中学习。通过使用主动学习，模型可以从更多的数据中学习，从而提高性能。

总之，【【微信】】是一个强大而复杂的语言模型，它彻底改变了NLP领域。凭借其生成类似人类文本的能力，【【微信】】已被用于许多应用程序，从会话代理和语言翻译到问答和情感分析。

随着人工智能的发展，【【微信】】可能会继续发展并变得更加复杂。未来的发展可能包括改进的预训练技术、更好的架构和新的微调方法。此外，随着更多数据的可用，【【微信】】在执行更全面的任务方面将变得更加准确和有效。

但是，必须注意的是，【【微信】】有缺点。一个潜在的缺点是使用该模型可能会产生道德问题。例如，有人担心模型生成有害或有偏见的文本的可能性。此外，该模型还存在用于恶意目的的风险，例如制造假新闻或冒充个人。

另一个潜在的缺点是训练和使用模型的计算成本很高。对于许多组织来说，这可能是一个重大的进入障碍，尤其是较小的组织，他们可能需要更多资源来投资必要的硬件和基础设施。

尽管有这些缺点，但【【微信】】的潜在好处太大了，不容忽视。随着人工智能的不断发展，【【微信】】可能会在我们的日常生活中扮演越来越重要的角色。无论是将带来一个充满智能和乐于助人的对话代理的未来，还是一个人类和机器语言之间的界限变得模糊的世界，【【微信】】的未来都是令人兴奋和有趣的。

【【微信】】是一个强大的语言模型，它彻底改变了NLP领域。凭借其生成类似人类的文本的能力，它具有广泛的应用，从对话代理到情感分析。虽然它的使用存在潜在的缺点，但【【微信】】的未来是令人兴奋和有趣的，充满了进一步开发和应用的可能性。

Tags:

【【微信】】架构 NLP 运作方式人工智能自然语言处理 AI

揭秘chatgpt背后的核心技术 ChatGPT需要什么技术支持

chatbot,chatty,chat,chat thit

撰文｜毕俊?编辑｜ 展洋

出品｜商业秀

自今年2月中旬监管出手降温以来，国内关于【【微信】】的各大社群讨论，似乎沉寂了不少。

彼时市场传言，有关部门将加强【【微信】】及相似产品的监测评估和违规行为处置工作，要求坚决关闭从境内访问境外【【微信】】的代理服务。内容包括但不限于关闭从境内访问境外【【微信】】的代理服务，要求各类网站、应用程序、公众号、小程序等，不得通过代理、插件、用户自行部署等方式向公众提供境外【【微信】】产品的访问服务。如存在访问渠道，迅速整改下线。

虽然该消息并未得到有关部门的证实，但之后部分国内访问境外【【微信】】代理服务，确实已被关闭。并且，部分通过小程序部署接口为用户提供【【微信】】服务的机构访问接口已被停用，以及淘宝上出售Chatgpt账号的商家们更是迅速消失。

很快，A股【【微信】】的概念板块遭遇一波快速回落，包括汉王科技、海天瑞声、云从科技、格灵深瞳等在内的多家公司收到了监管工作函。而被问及的主要问题集中在相关公司与【【微信】】有没有关系、有多少关系、是否借机炒作等。

更有意思的是，相比2月初全民争相体验【【微信】】的热火朝天，现在已经很难在淘宝等平台搜索到售卖Chatgpt相关账号的商品了。

不过，这些并未影响到一些类【【微信】】创业者们的热情。

毕竟，对于沉寂许久的人工智能领域而言，【【微信】】的横空出世，是NLP技术的一大进步；同时也意味着通用人工智能的大门就此开启。

AI的新纪元已经来到，没有人愿意错失。

01 创业公司被质疑：大模型自研有几分？

在社交媒体上，不少国内创业公司都在声称，要发力打造中国【【微信】】。就连原美团联合创始人王慧文，也在社交平台即刻上喊话要“打造中国的【【微信】】”。

王慧文甚至放出豪言，要设立了北京光年之外科技有限公司，出资5千万美元，估值2亿美元，并称下轮融资已有顶级VC认购2.3亿美元。

不久，美团创始人王兴也在朋友圈透露，将以个人身份参与王慧文创业公司“光年之外”的A轮投资，并出任董事。

除了大公司，一些做类【【微信】】的创业公司也备受关注，甚至引发争议，比如一家叫做MiniMax的公司。

公开资料显示，MiniMax成立于2021年12月，以大模型为主要研发方向，拥有三个模态的基础大模型，涉及文本到视觉、文本到语音、文本到文本三大模态。基于自研的大模型，该公司此前曾推出过一个智能对话机器人生成平台 Glow，后又推出人工智能助手Inspo。

据媒体报道，Inspo是由 MiniMax公司自主开发，底层是一个大型语言模型。通过与Inspo的对话可以得知其模型训练数据截止于今年2月，是MiniMax的核心技术之一。该模型基于Transformer架构。

而更具体的信息比如模型参数量以及使用了哪些数据库，则未有具体回答，官方也并未释放出更多的详细介绍。

从一些网友的使用截图看来，Inspo的训练模型已经更新到了GPT-3.5-turbo。并且最新版本由【【微信】】发布，在之前GPT-3的基础上优化了模型结构和算法。

来源：网络

不过，也有不少网友质疑，这个大模型既然是基于【【微信】】发布的GPT的基础上推出的，那么它的大模型自研部分究竟有多少？是不是含水分？究竟能不能被称为真正的“中国版的【【微信】】”？

这类被质疑的创业公司不胜枚举，比如有业内人士在知乎上表示：国内某团队上线的服务似乎是直接大量使用了【【微信】】的问答数据来训练自己的网络，输入问题和通过【【微信】】得到的回答高度相似。

来源：知乎

该人士同时指出，“国内有大量【【微信】】和GPT3.5 代理，获得了大量【【微信】】的真实用户问答数据，是优质的训练素材。但，这是违反【【微信】】协议的行为，虽然【【微信】】管不了，但这个有点丢人。”

甚至有网友评价道，如果说MiniMax这种程度的大模型也称得上自主研发的话，那科研的创造性，仿佛是个笑话一般。

对于所有的创业公司而言，不愿错过这波AI领域的机会是一回事，但是否有真的有技术实力承接，则是另一回事。

小冰公司CEO李笛曾在接受《中国企业家》采访时表示，“产出【【微信】】的Foundation Model（大模型）在今天这个时代，还不是创业公司可以玩转的。很多人去计算Foundation Model，主要计算它的GPU。但实际上，GPU这些东西这都是看得见的，看不见的是，如果你这个模型训练出来了，但模型不收敛，你就白训练了，就得推倒重来，这是工程问题，你需要推倒重来很多次。”

如果按李笛的说法，以如今国内这些创业公司的资金水平和技术积累，至少还很难搞得出原创版的大模型。

02 一场资金与技术的持久战

以人工智能训练为例，它不仅需要消耗大量的算力，还需要投入顶级研究人员薪资等人力成本。

毕竟，AI技术研发需要真正有实力的专家。

科技情报分析机构AMiner和智谱研究发布的《【【微信】】团队背景研究报告》显示，在【【微信】】的【【微信】】研发团队中，有27人为本科学历，25人为硕士学历，28人为博士研学历(注：5人信息缺失)，其占比分别为33%、30%、37%。

相比之下，Minimax的团队似乎有些配置不足，虽然其创始团队也来自海内外AI公司和科技大厂，但核心技术骨干只有几名，既要做大模型和数据训练，又要做商业化布局，这样的团队还远远不够。

按照Minimax接受媒体采访时的说法，这家成立于2021年12月的创业公司，仅仅用了一年半的时间，便“自研”出了三个模态的基础大模型，涉及语音、图像、文本不同内容的生成。

而反观【【微信】】，这家成立于2015年12月的公司，其推出【【微信】】也要等到2022年12月，从研发到产品推出，其间整整花了7年时间。

最初，【【微信】】的定位为非营利公司，但创立之初就吸引到10亿美元的种子投资。随后几年，【【微信】】以每年数百万美元的速度消耗着融资。

然而，研发的进展缓慢与资本的逐利相冲突。在董事会发生变动后，公司从非盈利组织转为可公开融资的追求资本回报的科技企业，迅速获得了微软10亿美元的投资计划。

据《纽约时报》报道，自2019年以来，微软对【【微信】】至少投资了30亿美元。今年1月，【【微信】】宣布获得微软“多年期数十亿美元的投资”。据Semafor报道称，投资高达100亿美元，包括其他风投公司。

至此，【【微信】】的估值则将达到290亿美元。

可以看到，在强有力的资金支持下，【【微信】】的GPT产品才得以迅速迭代，前两代的开源GPT模型和GPT-3积累了大量数据，在2022年更是进化出了【【微信】】。

从研发到产品面世，【【微信】】的商业化之路需要大量资金投入。据Business Insider估算，目前【【微信】】一个月的维护成本在300万美元（一天将近10万美元），考虑到人力成本，费用估计还要加倍。【【微信】】的产品用的是微软的Azure企业云服务器，有投行分析员估算，一年的成本可能从2500万美元到10亿美元。

【【微信】】的【【微信】】研发之路尚且如此艰难，何况一家小小的创业公司呢！

因此，关于Minimax的资金来源以及商业化过程，也难免会引发外界质疑。而且，目前Minimax也并未对外公开其资金情况以及投资团队。

如此看来，MiniMax需要对外公开回答的问题还不少。

03?技术的厚积薄发

自2022年至今，生成式AI是一个很热门的话题。与之而来的是，今年【【微信】】瞬间爆火。

对新事物的出现，我们国家的监管上也并非“一棒子打死”，政策上给予了积极的支持。

2月13日，北京市经济和信息化局发布的《2022年北京人工智能产业发展白皮书》提出，2023年要全面夯实人工智能产业发展底座，支持头部企业打造对标【【微信】】的大模型，着力构建开源框架和通用大模型的应用生型。

自2月起，百度、阿里、腾讯、京东、字节跳动等大企业纷纷发声，表示自己在大模型领域已经开展了深入研究，且获得了很多成果。

在这波大模型的追赶赛中，百度是最早开始研发预训练模型的企业。从2019 年开始，百度就深耕预训练模型研发，先后发布知识增强文心（ERNIE）系列模型。

文心大模型研发的带头人，百度首席技术官、深度学习技术及应用国家工程研究中心主任王海峰博士，是自然语言处理领域权威国际学术组织ACL（Association for Computational Linguistics）的首位华人主席、ACL亚太分会创始主席、ACL Fellow，还是IEEE Fellow、CAAI Fellow及国际欧亚科学院院士。

此外，王海峰还兼任中国电子学会、中国中文信息学会、中国工程师联合体副理事长等。目前，王海峰在国内外期刊会议上发表的学术论文有200余篇，获得已授权专利170余项。

在业内看来，推出【【微信】】，需要扎实的AI技术基础，尤其是AI深度学习领域的积累。而百度十多年来，已经累计投入超过1000亿来研究AI技术。

有分析师表示，【【微信】】相关技术，百度在中国乃至全球范围均具有综合优势。【【微信】】处在技术架构的模型层，而百度在芯片、框架、模型、应用四层技术栈均有布局，其文心系列大模型在行业已普遍应用，而能支撑该训练模型的框架，除百度飞桨外，在中国难出其右。

所有的技术型产品，尤其是人工智能领域，其底层技术的研发都需要经历漫长的时间周期。而一些创业公司跟风入局，利用时间差赚一些快钱，或许能有一时风光，但长远来看，终会被市场淘汰。

通用人工智能的研发需要持续的资金与顶级人才投入，就通用人工智能领域而言，受限于算力、数据规格、历史投入、顶尖人才、资金实力等方面的要求。显然，大公司比创业公司更具备优势，比如百度之所以能尽快推出类【【微信】】产品“文心一言”，也是因为百度十年多来累计投入超过1000亿来技术研发。

而创业公司显然更难一些，一方面，它们的前期技术研发沉淀甚少；另一方面，它们也还面临着在应用端根据行业需求调整和优化耗费的高昂成本，且难度颇高。

但创业公司因此就完全没有机会了吗？有，对创业公司而言，他们只要脚踏实地做好【【微信】】相关的一个细分板块，也依然有机会跑出来。

@新媒体制作与运营：林晓? ?

@图文校对与视频后期：李浩珉

@文章开白、投稿合作请联系：

《「碳」路者｜中国光伏激荡20年》

本文地址： https://www.xxs100.com//show-405124.html