淘优惠

淘优惠

openai战队

双十一活动 0

出品|开源中国

OpenAI 刚刚宣布正式推出 GPT-4。GPT-4 是 Generati【【微信】】rmer 4 的缩写,即生成型预训练变换模型 4。

公告写道,GPT-4 是一个多模态大型语言模型(支持接受图像和文本输入,以文本形式输出),也是 OpenAI 努力扩展深度学习的最新里程碑。虽然 GPT-4 对于许多现实场景的处理比人类差,但它在各种体现专业和学术能力的 benchmark 上,已表现出和人类相当的水平。

例如,GPT-4 通过了模拟律师考试,其分数在应试者的前 10% 左右;相比之下,GPT-3.5 的得分却在倒数 10% 左右。OpenAI 表示,他们花了 6 个月的时间来使用对抗性测试程序,以及通过 ChatGPT 的经验教训迭代调整 GPT-4,从而在真实性和可控性等方面取得了有史以来最好的结果(尽管远非完美)。

使用示例

OpenAI 用一张梗图演示了 GPT-4 特有的「多模态」功能。

用户提问:解释下图的笑点是什么,并对图片中的每部分进行描述。

GPT-4:

The image shows a package for a "Lightning Cable" adapter with three panels.

Panel 1: A smartphone with a 【【微信】】 (a large, blue, 15-pin connector typically used for computer monitors) plugged into its charging port.

Panel 2: The package for the "Lightning Cable" adapter with a picture of a 【【微信】】 on it.

Panel 3: A close-up of the 【【微信】】 with a small Lightning connector (used for charging iPhones and other Apple devices) 【【微信】】.

The humor in this image comes from the absurdity of plugging a large, outdated 【【微信】】 into a small, modern smartphone charging port.

翻译如下:

图片显示了一个 "Lightning Cable" 适配器的包装,总共包含三个部分。

面板 1:一部智能手机,其充电端口插着一个 VGA 接口(大的蓝色 15 针接口,通常用于电脑显示器)。

面板 2:"Lightning Cable" 适配器的包装上有一张 VGA 接口的图片。

面板 3:VGA 连接器的特写,末端是一个小的 Lightning 连接器(用于为 iPhone 和其他苹果设备充电)。

这张图片的笑点来自于:展示了将一个大的、过时的 VGA 连接器插入一个小的、现代的智能手机充电端口的荒谬性。

上面的例子看起来很简单,OpenAI 紧接着展示了高级用法 ―― 读论文。简单来说就是给 GPT-4 提供论文的图片格式文件,让它阅读并总结出要点。效果如下:

甚至直接让 GPT-4 回答图片中对应题号的问题:

GPT-4 局限性

尽管功能强大,但 GPT-4 与早期的 GPT 模型具有相似的局限性,即生成的结果不符合事实。因此它仍然不完全可靠(它会产生 “幻觉” 事实并出现推理错误)。

虽然这仍然是一个问题,但 GPT-4 相对于以前的模型(它们本身在每次迭代中都在改进)显着减少了 “幻觉”。在内部的对抗性真实性评估中,GPT-4 的得分比最新的 GPT-3.5 高 40%:

与 GPT 3.5 的对比

据介绍,对于日常的谈话,GPT-3.5 和 GPT-4 之间的区别可能很微妙。但当任务的复杂性达到足够的阈值时,差异就会出现 ――GPT-4 比 GPT-3.5 更可靠、更有创意,并且能够处理更细微的指令。

为了了解这两种模型之间的区别,OpenAI 通过各种 benchmark 进行了测试,包括最初为人类设计的模拟考试。从下图可以看出,GPT-4 的成绩大部分都比 GPT-3 好。

GPT-4 也在多项测试项目中取得了接近满分的成绩:

  • USABO Semifinal Exam 2020(美国生物奥林匹克竞赛)

  • GRE 口语

OpenA

open ai对国内的影响 open ai最新消息


GPT-4 可以更准确地解决你的难题,多模态的 GPT-4 还可以生成、编辑具有创意性或技术性的文章,在高级推理方面的表现超过其前辈(当前公开版?ChatGPT 基于 GPT-3.5)。当然,正如大家所猜测的那样,微软 New?Bing 的聊天功能确实基于?GPT-4。

此外,该公司正在与合作伙伴 Be My Eyes 一起测试 GPT-4 的图像输入能力(注:Be My Eyes 是一款即将推出的智能手机 App,可以识别场景并对其进行描述,类似于大家常见的 AI 识图的加强版)。

除了介绍网站,【【微信】】 还提供了描述 GPT-4 功能的技术性论文,以及详细描述其局限性的系统模型 Card。

【【微信】】 计划通过 ChatGPT 及其商业 API 为用户提供 GPT-4 的文本功能支持,但目前还需要等待。IT之家这里需要提醒一下,GPT4 目前仅 ChatGPT plus 账号可用,可选 GPT4 模式进行对话,每 4 小时限制发送 100 条消息。

收费方面,大约 750 个单词的提示收取约 3 美分的费用,约 750 个单词的响应则收取 6 美分(就是问和答的区别)。

【【微信】】 声称,ChatGPT-4 比迭代前的 GPT-3.5“更大”,这意味着它接受了更多的数据训练,模型文件中有更多的权重(参数),这也使得它的运行成本更高。

该公司声称,该模型“比以往任何时候都更具创造性和协作性”,“可以更准确地解决难题”。它可以解析文本和图像输入,尽管它只能通过文本进行响应。

就任务而言,GPT-4 的表现比前辈更好,它可以遵循自然语言的复杂指令并生成技术或创意内容,而且它可以还更深入地做到这一点:它支持生成和处理多达 32768 个标记(约 25000 个文本单词),从而实现比前辈更长的内容创建或文本分析。

【【微信】】 承认,该公司使用了微软云计算平台 Azure 来训练其模型,微软已经向 【【微信】】 投资了数十亿美元。【【微信】】 以竞争为由,没有公布具体的模型大小或用于训练它的硬件等细节,这些细节可以用来重建模型。

官方表示,GPT-4?错误答案更少,而且也会减少偏离话题的可能,也尽可能不会再谈论禁忌话题,甚至在许多标准化测试中比人类表现得都要更好一些。

例如,GPT-4 在模拟律师考试的成绩在考生中排名前 10% 左右,在 SAT 阅读考试中排名前 7% 左右,在 SAT 数学考试中排名前 11% 左右。相比之下,GPT-3.5 在律师考试中的得分一般都是倒数 10% 左右。当然,它们考个研究生还是没问题的。