chatgpt会越来越智能吗 chatgpt真的可替代谷歌吗
热门文章
0
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
机器之心Pro 2023-02-16 15:34 ・北京 机器之心报道编辑:泽南视觉模型有很大的提升空间,研究者们在以往的 LLM 中学到经验教训,认为扩展是一个很有前途的方法。来自谷歌的研究者将 ViT 扩展到 22B 参数量,这是迄今为止报道的最大的视觉主干。与自然语言处理类似,对预训练视觉主干的迁移提高了模型在各种视觉任务上的性能。更大的数据集、可扩展的架构和新的训练方法都推动了模型性能的提升。然而,视觉模型仍然远远落后于语言模型。具体来说,迄今为止最大的视觉模型 ViT 只有 4B 参数,而入门级语言模型通常超过 10B 参数,更别说具有 540B 参数的大型语言模型。为了探索 AI 模型的性能极限,Google Research 最近在 CV 领域的一项研究,率先将 Vision Transformer 参数量扩展到了 22B,提出 ViT-22B,与之前类似的模型参数量 4B 相比,可以说这是迄今为止最大的稠密型 ViT 模型。 打开网易新闻 查看精彩图片 论文地址:https://arxiv.org/pdf/2302.05442.pdf对比之前最大的 ViT- G 和 ViT-e,表 1 给出了比较结果,由下表可得,ViT-22B 主要是扩展了模型的宽度,使得参数量更大,深度和 ViT-G 一样。 打开网易新闻 查看精彩图片 当前的 ViT 大模型正如这位知乎网友所说,难道是谷歌在 ChatGPT 上输了一局,势必要在 CV 领域争口气? 打开网易新闻 查看精彩图片 如何做到的?原来研究早期,他们发现在扩展 ViT 的过程中,出现了训练不稳定性,并且可能会带来架构变化。然后研究人员仔细设计模型,并且以前所未有的效率来实现模型并行训练。ViT-22B 的质量是通过一套全面的任务来评估的,从(少样本)分类到密集输出任务,在这些任务中,它达到或超过了当前 SOTA 水平。例如,即使用作冻结的视觉特征提取器,ViT-22B 在 ImageNet 上的准确率也达到了 89.5%。通过训练 text tower 来匹配这些视觉特征,它在 ImageNet 上实现了 85.9% 的零样本设置准确率。此外,该模型可以看作是一个教师,用作蒸馏目标,研究人员训练了一个 ViT-B 学生模型,在 ImageNet 上的准确率为 88.6%,达到了此类规模模型上 SOTA 水平。模型架构ViT-22B 是一种基于 Transformer 的编码器模型,类似于原始 Vision Transformer 架构,但包含以下三个主要修改,以提高效率和大规模训练的稳定性:并行层、查询 / 键(QK)归一化和 omitted biases。并行层。正如 Wang 和 Komatsuzaki 研究所述,该研究设计了一个 Attention 和 MLP 并行结构: 打开网易新闻 查看精彩图片 这可以通过组合 MLP 和注意力块的线性投影来实现额外的并行化。值得注意的是,用于查询 / 键 / 值投影的矩阵乘法和 MLP 的第一线性层被融合到一个单独的操作中,对于 MLP 的注意力外投影和第二层线性层也是如此。QK 归一化。训练大模型的一个困难是模型的稳定性,在将 ViT 扩展的过程中,研究人员发现在几千轮的 step 后训练损失呈发散性。特别是在 8B 参数的模型中这种现象尤为突出。为了稳定模型训练,研究人员采用 Gilmer 等人的方法,在点积注意力计算之前对查询和键应用 LayerNorm 归一化操作,以提升训练的稳定性。具体来说,注意力权重计算为: 打开网易新闻 查看精彩图片 omitted biases。在 PaLM 之后,偏置项从 QKV 投影中移除,并且所有的 Layernorm 都在没有偏置的情况下应用,从而提高了加速器的利用率 (3%),且质量没有下降。然而,与 PaLM 不同的是,研究人员对 MLP 密集层使用了偏置项,即便如此,这种方式在兼顾质量的同时,速度没有下降。图 2 展示了一个 ViT-22B 编码器块。嵌入层在原有 ViT 的基础上进行了 patch 提取、线性投影和添加位置嵌入等操作。研究人员使用多头注意力池化来聚合头中的每个 token 表示。 打开网易新闻 查看精彩图片 ViT-22B 使用 14 × 14 的 patch,图像分辨率为 224 × 224。ViT-22B 采用了一种学习到的一维位置嵌入。在对高分辨率图像进行微调期间,研究人员根据预训练的位置嵌入在原始图像中的位置执行二维插值。训练基础设施与效率ViT-22B 使用 FLAX 库,实现方式是 JAX,并在 Scenic 中构建。它同时利用了模型和数据并行性。值得一提的是,研究人员使用了 jax. xmap API,它提供了对所有中间体的分片(例如权重和激活)以及芯片间通信的显式控制。研究人员将芯片组织成大小为 t × k 的 2D 逻辑网格,其中 t 是数据平行轴的大小,k 是模型轴的大小。然后,对于 t 组中的每个组,k 个设备获得相同批次的图像,每个设备只保留 1/k 的激活,并负责计算所有线性层输出的 1/k(详细内容如下)。 打开网易新闻 查看精彩图片 图 3:异步并行线性操作(y=Ax):跨设备的重叠通信和计算的模型并行矩阵乘法。异步并行线性操作。为了最大限度地提高吞吐量,必须考虑计算和通信。也就是说,如果希望这些操作在分析上等效于未分片的情况,就必须尽可能少地进行通信,理想情况下让它们重叠,这样就可以保持矩阵乘法单元(FLOP 的大部分容量所在)始终处于繁忙状态。参数分片。该模型在第一个轴上是数据并行的。每个参数可以在这个轴上完全复制,也可以让每个设备保存它的一个块。研究人员选择从模型参数中分割一些大张量,以便能够拟合更大的模型和批量大小。使用这些技术,ViT-22B 在 TPUv4 上训练期间,每个核每秒处理 1.15k token。ViT-22B 的模型 flops 利用率(MFU)为 54.9%,表明硬件的使用非常有效。请注意,PaLM 报告的 MFU 为 46.2%,而研究人员在相同硬件上为 ViT-e(仅数据并行)测量的 MFU 为 44.0%。实验结果实验探究了 ViT-22B 用于图像分类的评估结果。表 2 结果显示,ViT-22B 在各种指标上仍有显著的改善。此外,研究表明,像 ViT-22B 这样的大型模型的 Linear probing 可以接近或超过具有高分辨率的小型模型的 full fine-tuning 性能,通常成本更小、更容易做到。 打开网易新闻 查看精彩图片 研究进一步在细粒度分类数据集 iNaturalist 2017 上测试线性可分离性,将 ViT-22B 与其他 ViT 变体进行比较。研究测试了 224px 和 384px 的输入分辨率。结果如图 4。研究观察到 ViT-22B 明显优于其他 ViT 变体,特别是在标准的 224px 输入分辨率下。这表明 ViT-22B 中大量的参数对于从图像中提取详细信息是有用的。 打开网易新闻 查看精彩图片 表 3 显示了 ViT-22B 对 CLIP、ALIGN、BASIC、CoCa、LiT 模型的零样本迁移结果。表 3 底部比较了三个 ViT 模型性能。在所有的 ImageNet 测试集中,ViT-22B 取得了相当或更好的结果。值得注意的是,ObjectNet 测试集上的零样本结果与 ViT 模型大小高度相关。最大的 ViT-22B 将新的 SOTA 设置在具有挑战性的 ObjectNet 测试集中。 打开网易新闻 查看精彩图片 Out-of-distribution (OOD)。研究构建了一个从 JFT 到 ImageNet 的标签映射,以及从 ImageNet 到不同分布外数据集的标签映射,即 ObjectNet、ImageNet-v2、ImageNet- R 和 ImageNet- A。目前可以确认的结果是,与 ImageNet 上的改进一致,扩展模型增加了分布外性能。这适用于只看过 JFT 图像的模型,以及在 ImageNet 上进行微调的模型。在这两种情况下,ViT-22B 在更大的模型上都延续了 OOD 性能更好的趋势(图 5,表 11)。 打开网易新闻 查看精彩图片 此外,研究人员还研究了 ViT-22B 模型在语义分割和单目深度估计任务中捕获的几何和空间信息质量。语义分割。研究人员在三个基准上评估 ViT-22B 作为语义分割主干:ADE20K、Pascal Context 和 Pascal VOC。从表 4 可以看出,当只看到少量分割掩码时,ViT-22B 主干迁移效果更好。 打开网易新闻 查看精彩图片 单目深度估计。表 5 总结了研究的主要发现。从最上面的行(DPT 解码器)中可以观察到,与不同的主干相比,使用 ViT-22B 特性产生了最好的性能(在所有指标上)。通过将 ViT-22B 主干与 ViT-e(一个较小的模型,但在与 ViT-22B 相同的数据上进行训练)进行比较,研究发现扩展架构可以提高性能。此外,将 ViT-e 主干与 ViT-L(与 ViT-e 类似的架构,但训练的数据更少)进行比较,研究发现这些改进也来自于扩展训练前的数据。这些发现表明,更大的模型和更大的数据集都有助于提高性能。 打开网易新闻 查看精彩图片 该研究还在视频数据集上进行了探索。表 6 展示了在 Kinetics 400 和 Moments in Time 数据集上的视频分类结果,表明可以使用冻结的主干实现具有竞争力的结果。研究首先与 ViT-e 进行比较,ViT-e 拥有最大的先验视觉主干模型,由 40 亿个参数组成,并且也在 JFT 数据集上进行训练。我们观察到更大的 ViT-22B 模型在 Kinetics 400 上提高了 1.5 分,在 Moments in Time 上提高了 1.3 分。最后研究注意到,通过完整的端到端微调,还有进一步改进的空间。 打开网易新闻 查看精彩图片 更多技术细节请参阅原论文。参考链接:https://www.zhihu.com/question/583748997 特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。
ChatGPT聊天机器人的写作能力让人们为之倾倒一位专家解释了为什么它如此令人印象深刻
ChatGPT人工智能聊天机器人,聊天机器人tay,聊天机器人app,聊天机器人插件我们都曾与聊天机器人进行过某种互动。它通常是网站角落里的一个小弹出窗口,提供客户支持――导航通常很笨拙――而且几乎总是令人沮丧地不具体。 但想象一下,一个经过人工智能(AI)增强的聊天机器人,它不仅可以熟练地回答你的问题,还可以写故事、提供生活建议,甚至可以写诗和编写计算机程序。 OpenAI上周发布的聊天机器人ChatGPT似乎正在实现这些结果。它引发了很多兴奋,有些人甚至认为,这可能预示着人工智能将统治人类内容生产者的未来。 ChatGPT做了什么来预示这样的主张?它(及其未来的迭代)如何在我们的日常生活中变得不可或缺? ChatGPT能做什么? ChatGPT建立在OpenAI之前的文本生成器GPT-3之上。OpenAI通过使用机器学习算法来构建其文本生成模型,以处理大量的文本数据,包括书籍、新闻文章、维基百科页面和数百万个网站。 通过摄取如此大量的数据,模型学习语言的复杂模式和结构,并获得解释用户请求的预期结果的能力。 ChatGPT可以在训练数据中构建复杂而抽象的知识表示,并利用该表示生成输出。这就是为什么它会写出相关的内容,而不只是吐出语法正确的废话。 GPT-3被设计为延续文本提示,而ChatGPT被优化为对话参与、回答问题和提供帮助。举个例子: ChatGPT通过正确回答我向本科生和研究生提出的考试问题,包括需要编码技能的问题,立刻吸引了我的注意。其他学者也得出了类似的结果。 一般来说,它可以对广泛的主题提供真正翔实和有益的解释。 ChatGPT作为写作助手也有潜在的用处。它在起草文本和提出看似“原创”的想法方面做得不错。 反馈的力量 为什么ChatGPT看起来比它过去的一些同行更有能力?这很大程度上可能取决于它是如何训练的。 在开发过程中,ChatGPT展示了人工智能训练师之间的对话,以演示所需的行为。尽管有一个类似的以这种方式训练的模型,称为InstructGPT,但ChatGPT是第一个使用这种方法的流行模型。 它似乎给了它一个巨大的帮助。结合人类反馈帮助ChatGPT朝着产生更多有帮助的响应和拒绝不适当的请求的方向发展。 拒绝接受不适当的输入是提高人工智能文本生成器安全性的一大步,否则它会产生有害内容,包括偏见和刻板印象,以及假新闻、垃圾邮件、宣传和虚假评论。 过去的文本生成模型因反复反映训练数据中包含的性别、种族和文化偏见而受到批评。在某些情况下,ChatGPT成功地避免了强化这种刻板印象。 尽管如此,用户已经找到了规避现有安全措施的方法,并产生了有偏见的回应。 该系统经常接受写假内容的请求,这进一步证明了它需要改进。 克服的局限性 ChatGPT可以说是最有前途的人工智能文本生成器之一,但它并非没有错误和限制。例如,编程咨询平台Stack Overflow暂时禁止聊天机器人的答案,因为它缺乏准确性。 一个实际的问题是ChatGPT的知识是静态的;它不能实时获取新信息。 不过,它的界面确实允许用户对模型的性能给出反馈,给出理想答案,并报告有害的、错误的或无用的回答。 OpenAI打算通过将这种反馈整合到系统中来解决现有的问题。用户提供的反馈越多,ChatGPT就越有可能拒绝请求,导致不需要的输出。 一个可能的改进是增加一个基于用户反馈的“信心指标”功能。这个工具可以构建在ChatGPT之上,它将表明模型对其提供的信息的信心――让用户来决定是否使用它。一些问答系统已经做到了这一点。 一个新工具,但不是人类的替代品 尽管有局限性,ChatGPT在原型中表现得非常好。 从研究的角度来看,这标志着人类AI系统的开发和部署取得了进步。在实际方面,它已经足够有效,可以在日常应用中使用。 例如,它可以用作谷歌的替代方案。谷歌搜索需要你筛选大量网站,并深入挖掘,以找到所需的信息,ChatGPT直接回答你的问题,而且通常做得很好。 此外,随着用户的反馈和更强大的GPT-4模型的出现,ChatGPT可能会在未来得到显著改进。随着ChatGPT和其他类似的聊天机器人越来越受欢迎,它们可能会在教育和客户服务等领域得到应用。 然而,虽然ChatGPT可能会完成一些传统上由人完成的任务,但没有迹象表明它会在短时间内取代专业作家。 虽然它们的能力甚至表面上的创造力可能会给我们留下深刻的印象,但人工智能系统仍然是它们训练数据的反映――不像人类那样具有独创性和批判性思维的能力。对话提供 本文转载自The Co在创作共用许可下的对话。阅读原文。 引用当前位置聊天机器人ChatGPT的写作技巧让人们惊叹不已。一位专家解释了为什么它如此令人印象深刻(2022,12月6日),从https://techxplore.com/news/2022-12-chatgpt-chatbot-people-skills-expert.html这个文档检索到2022年12月6日 作品受版权保护。除为私人学习或研究目的而进行的公平交易外,未经书面许可,不得转载任何部分。的有限公司 Ntent仅供参考用途。
chatgpt会颠覆什么行业 chatgpt收费和免费区别
chatgpt是什么意思,chatgpt国内能用吗,chatgpt怎么用,chatgpt注册自古以来,我们人类一直在寻找外星生命、外星人;在找宇宙中我们的同类。可一直未果。这几年,新能源车大火。伴随着新能源车同时出圈的,还有人工智能自动驾驶技术。人工智能驾驶技术是什么?背后其实就是AI。视觉技术路线上分为激光雷达识别派(国产新势力主导)和视觉识别投喂派(毫米波雷达+摄像头特斯拉主导)。去年开始,AI绘画,又开始在人类的美术界、广告界掀起了巨大的波澜。人们都在问:AI替代人工绘画的时代已经到来了吗?话题还未冷,今天我们又见到了ChatGPT。ChatGPT是什么?它是美国OpenAI研发的聊天机器人程序,于2022年11月30日发布。(ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。)看完了上面的介绍,再联系到无人驾驶技术和AI绘画的分支,我惊呆了!突然蹦出了这么一个荒谬的想法:我们人类一直在寻找智能生命,寻找外星人。也许我们通过这么一个意想不到的途径,找到了。举报/反馈
版权声明:除非特别标注原创,其它均来自互联网,转载时请以链接形式注明文章出处。