OpenAI推出GPT-4,SAT数学超过89%人类考生,法律考试超过90%考生
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
3月15日 OpenAI 周二发布多模态大语言模型GPT-4,该模型是OpenAI 在调用和响应深度学习模型制作方面的最新里程碑,并且在重要考试中胜过其大多数人类考生。
根据 OpenAI 的描述,该模型展示了“在各种专业和学术领域对标人类水平的表现”。GPT-4 在模拟律师考试中获得了前10%的成绩,而其前身 GPT-3.5(ChatGPT 的基础)得分排位在后 10% 左右。
GPT-4 在其他各种考试中也表现出色,例如美国高校入学考试 SAT 数学考试,其获得了800 分中的 700 分成绩。然而,它暂时并不具备所有学科能力,例如在AP英语语言和作文中仅获得 2 分。
需要考虑的一件事:OpenAI 的 GPT 系列本质上是一个反流引擎系列,利用它训练的材料并重新组装它来解决用户的查询。有时是对的,有时是错的。它可以回忆考试的细节――而人类用户可能很难对所有细节都记得清清楚楚,它的回复可能更像是对人类必须参加的各类考试的评论。
OpenAI 首席执行官山姆奥特曼Sam Altman在谈到 GPT-4 时承认:“它仍然存在缺陷,仍然有限,而且在第一次使用时可能让人印象深刻,但当人们花更多时间使用后可能做不到这个程度(即多轮对话查询后得到的回应可能出现缺陷)。”
GPT-4 是一个大型多模态模型,它支持通过文本和图像输入查询,并以文本形式返回答案。当前开发者可以通过列入候补名单的 GPT-4 API 等待使用,而个人用户通过 ChatGPT Plus 订阅使用。当前基于图像的输入仍在完善中。
尽管增加了图像输入机制,但 OpenAI 并未公开或提供对其模型制作的相关信息。这家备受关注的公司选择不公布有关其规模、训练方式以及流程中包含哪些数据的详细信息。
“鉴于竞争格局和 GPT-4 等大型模型的安全影响,本报告不包含有关架构(包括模型大小)、硬件、训练计算、数据集构建、训练方法或类似内容的更多详细信息,”该公司在其技术论文中表示。
在YouTube 上的直播中,OpenAI 总裁兼联合创始人 Greg Brockman 通过要求各模型用一句话概括OpenAI GPT-4博客文章,每个词语都以字母“G”开头,以此证明GPT-4和GPT-3.5之间的区别。
GPT-3.5 根本就没有尝试回应。GPT 4 返回“GPT-4 产生了突破性的、巨大的收益,极大地激发了广义的 AI 目标(GPT-4 generates ground-breaking, grandiose gains, greatly gal【【微信】】I goals)" 。” 当 Brockman 告诉模型,句子中包含“AI”不算数时,GPT-4 在另一个没有“AI”的句子中修改了它的回应。
然后他继续让 GPT-4 为 Discord 机器人生成 Python 代码。更令人印象深刻的是,他拍了一张笑话网站的手绘模型照片,将图像发送到 Discord,关联的 GPT-4 模型以 HTML 和 Ja【【微信】】 代码响应,实现了模型网站。
最后,Brockman 设置 GPT-4 来分析 16 页美国税法,以返回具有特定财务状况的夫妇 Alice 和 Bob 的标准扣除额。OpenAI 的模型给出了正确答案,并解释了所涉及的计算。
除了更好的推理,从其改进的测试分数中可以明显看出,GPT-4 提高了协作性(按照指示迭代以改进以前的输出),能够更好地处理大量文本(分析或输出大约 25,000 个单词的中篇小说) ,以及接受基于图像的输入(用于对象识别,尽管该功能尚未公开)。
更重要的是,根据 OpenAI 的说法,GPT-4 应该比其更早版本更不容易犯错。
“我们花了六个月的时间使用我们的对抗性测试程序和 ChatGPT 的经验教训迭代调整 GPT-4,从而在真实性、可控性和拒绝超出安全范围方面取得了有史以来最好的结果(尽管远非完美) ”,OpenAI表示。
人们可能已经从微软 Bing 问答功能首次亮相时就熟悉过这种“远非完美”的安全级别,事实证明它使用了 GPT-4作为其 Prometheus 模型的基础。
OpenAI 承认 GPT-4 像它早前版本一样会出现“扭曲事实并犯推理错误”,但该公司称新模型降低了犯错程度。
“虽然仍然是一个真正的问题,但 GPT-4相对于以前模型更少出现事实歪曲的表现(这些模型本身在每次迭代中都在改进),”该公司解释说。“在我们内部的对抗性真实性评估中,GPT-4 的得分比我们最新的 GPT-3.5 高 40%。”
GPT-4 的定价是每 1000个提示token 0.03 美元和每 1000个完成token 0.06 美元,其中一个token大约是四个字符。还有一个默认速率限制为每分钟 40,000 个token和每分钟 200 个请求。
此外,OpenAI 开源了Evals,这是一个用于评估和校对测试机器学习模型(包括它自己的模型)的程序。
尽管人工智能风险的担忧一直都在,但企业急于将人工智能模型推向市场。在 GPT-4 到来的同一天,由前 OpenAI 员工组建的初创公司 Anthropic推出了自己的基于聊天的助手 Claude,用于处理和生成文本摘要、搜索、问答、编程等。
谷歌担心在相关模型的营销方面落后,因此推出了一个名为PaLM 的 API,用于与各种大型语言模型和一个名为 MakerSuite 的原型环境进行交互。
几周前,Facebook 推出了LLaMA 大型语言模型,斯坦福大学的研究人员现已将其转变为Alpaca 模型,未来或将有更广泛的竞争。
“还有很多工作要做,我们期待通过社区在模型之上构建、探索和贡献的集体努力来改进这个模型,”OpenAI 表示。
参阅
https://openai.com/research/gpt-4
https://www.theregister.com/2023/03/14/openai_gpt4_ai/
OpenAI推出GPT-4!可以解析文本和图像输入 券商:商业化应用将进一步加速,背后有四大投资新路径
openai推出gpt,OpenAI推出ChatGPT API,OpenAI推出ChatGPT付费订阅版,OpenAI推出ChatGPT AP本文源自:金融界
金融界3月15日消息? 北京时间3月15日凌晨1点,OpenAI正式推出GPT-4文本生成AI系统。
据悉,GPT-4是新一代多模态大模型,支持图像和文本输入以及正确的文本输出,拥有强大的识图能力,文字输入限制提升至2.5万字,支持多个语言,回答准确性显著提高,从而让新的【【微信】】更聪明。此外,GPT-4还开放了角色扮演和性格定制能力。另外,GPT-4版本还会随着时间进行自动更新。
据OpenAI介绍,GPT-4在各种专业学术基准上有着人类水平表现。根据官方实验表明,GPT-4在各种专业测试和学术基准上的表现与人类水平相当。
首先,在美国BAR律师执照统考模拟中,GPT-4得分约为前10%――击败了90%人类,而【【微信】】背后的GPT-3.5得分约为倒数10%;生物奥林匹克竞赛,GPT-3.5能达到后31%水平分位,GPT-4可达到前1%水平分位;研究生入学考试 (GRE) 、SAT数学考试成绩中,也有大幅提升,击败了80%以上的人类答题水平,而医学知识自测考试准确率达75%。
第二个测试是与其他英文机器学习模型的技术能力。研究团队使用微软【【微信】】,将MMLU 基准――一套涵盖57个主题、14000个多项选择题翻译成多种语言。在测试的英语、拉脱维亚语、威尔士语和斯瓦希里语等26种语言中,有24种语言下,GPT-4优于GPT-3.5 和其他大语言模型(Chinchilla、PaLM)的英语语言性能。
华泰证券表示,GPT-4 的核心升级点包括:1)能够处理复杂的长文本,准确性显著提升;2)接受文本和图像的输入;3)风格多样化,创造力强。建议关注应用落地方向包括:1)对话机器人:利用GPT-4 的提升交互能力,如社交与教育应用、直播、游戏等;2)搜索:借助GPT-4 的分析能力,总结生成建议,如导购平台、搜索引擎等;3)办公:引领B 端生产力变革,如营销文本等;4)开放内容创作:如小说创作。
中信证券认为,伴随成本下降以及多模态的持续演进,GPT等大模型有望构筑AIGC核心基石,推动AI商业化进程加速和市场天花板打开。建议持续关注相关领域的AI公司:1)应用层;2)基础设施层。
1、【【微信】】通过大模型突破AI瓶颈,GPT-4多模态应用带动商业化加速
【【微信】】凭借大算力、大规模数据训练、基于人类知识的强化学习等方式突破AI技术瓶颈,获得超预期的用户体验效果与市场反响。回顾GPT系列模型演进,GPT-1结合无监督预训练与有监督微调过程,GPT-2突出零样本设定,GPT-3强调上下文学习能力,参数量、训练数据量不断提升。我们预计即将推出的GPT-4或支持多模态应用,开启通往人工通用智能(AGI)之路,并有望控制训练成本,降低使用门槛。目前,【【微信】】已在C端推出【【微信】】 Plus订阅计划,B端开放【【微信】】 API,且成本降低为0.002美金/1000token,海外多个应用率先接入。我们预计在GPT-4带动下,未来大模型以及多模态模型的商业化应用将进一步加速,带动行业景气度持续向上。
2、Transformer架构支撑GPT走向多模态,构筑AIGC领域核心基石
GPT系列模型使用Transformer架构,当前基于Transformer的多模态研究为AI领域研究热点,Transformer已开始打破NLP与CV领域壁垒,有望支撑GPT系列模型走向多模态应用,构筑AIGC领域核心能力基石。我们梳理出GPT的潜在基础能力包括文本生成(分析)、代码生成、对话交互、机器翻译、图像生成、视频生成等。我们认为,前述基础能力将支撑GPT系列模型在通用与垂直领域的应用,典型应用场景如:通用领域―搜索引擎/办公软件,垂直领域―教育/金融/医疗/图像视频等。
3、通用与垂直场景多点开花,GPT变革内容生成与交互方式
GPT有望革新各行各业的内容生成与交互方式。基于GPT+文本&代码&对话&翻译&图像&视频,我们看好GPT类技术未来在通用与垂直场景的应用空间。例如,搜索引擎结合GPT将重塑搜索结果呈现方式,多模态的引入带来一站式的文本、图像、视频汇集结果,将大为提升用户信息收集效率。
中金公司机构以下四大环节有望迎来新机遇:
(1)算力方面,【【微信】】训练所耗费的算力大约为3640 PF-days,即假设每秒运算一千万亿次,需要连续运行3640天,训练大模型需要强大的算力。人工智能的跨越式发展将成为算力流量消耗的重要驱动力,未来数据中心和相关的配套产业有望实现更好增长。其中,数据中心建设有四大重点方向:
①第三方IDC运营环节:宝信软件、数据港(与阿里合作)、科华恒盛(与腾讯合作)、奥飞数据、美利云、光环新网、铜牛信息等。
②储能温控环节:英维克(互联网IDC空调龙头)、佳力图(绑定中国移动)、高澜股份、依米康、申菱环境、朗进科技、科华数据、润泽科技等。
③传输网设备、光纤光缆、光模块等ICT环节:光模块领域的新易盛、中际旭创、博创科技;光器件领域的天孚通信、腾景科技、光库科技;光纤光缆领域的中天科技、亨通光电等。
④高性能计算芯片板块:澜起科技、国芯科技、聚辰股份、兆易创新、景嘉微、寒武纪、芯原股份等。
(2)数据标注方面,【【微信】】的训练过程加大了人工标注的力度和精度,这代表着在未来的人工智能领域,优质的数据源和强大的标注能力,将成为行业的基础设施。
(3)NLP(自然语言处理)方面,安信证券表示,由于【【微信】】主要基于自然语言处理,因此在NLP领域沉淀较多的企业,有望率先实现功能的部分复现,NLP头部厂商将率先受益。
(4)AIGC(人工智能生成内容)方面,【【微信】】是AIGC应用的又一个起点,随着深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,AIGC有望加速发展。