AI升级:正在接近“人”的GPT-4
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
21世纪经济报道记者杨清清北京报道 AI的“下一步”,OpenAI并没有让市场等太久。
3月15日,OpenAI正式发布了多模态预训练大模型GPT-4。作为迄今为止规模最大、功能最强大的多模态预训练模型,GPT-4实现了语言与图片的融合,令计算机更好地理解了人类的交流方式。
“这是OpenAI努力扩展深度学习的最新里程碑。”OpenAI在对GPT-4的官方介绍中表示,“GPT-4是一个大型多模态模型,它接受图像和文本输入、进行文本输出,虽然在许多现实场景中它尚不如人类,但在各种专业和学术基准上表现出与人类相当的性能。”
自1956年人工智能概念首次被提出后,人工智能在巅峰与暗流中游走数年,如今再次来到了转折时刻。
已经足够“聪明”
从整体而言,GPT-4实现了多重能力的跃升。
与此前的版本相比,GPT4在语言、文本、图像三个层面利用大量数据训练AI系统。由此,GPT-4具备强大的识图能力,文字输入限制也提升至2.5万字;GPT-4的回答准确性也显著提升,还能够生成歌词、创意文本从而实现风格变化。同时,GPT-4在各类专业测试及学术基准上也表现优良。
“在日常对话中,GPT-4与GPT-3.5之间的差距或许微妙,但当任务复杂度足够高的时候,GPT-4将具备更可靠、更具创造性的特点,且能够处理更细致的指令。”围绕GPT-4与前代大模型的对比,OpenAI介绍称。
例如,根据OpenAI公布的实验数据,GPT-4参加了多种基准考试测试,包括美国律师资格考试 Uniform Bar Exam、法学院入学考试 LSAT、“美国高考” SAT数学部分和证据性阅读与写作部分的考试,在这些测试中,它的得分高于88%的应试者。相较之下,GPT-3.5版本大模型的成绩是倒数10%。
“如果说GPT3系列模型给大家证明了,AI能够在一个模型里做多个任务(也就是所谓通用),GPT4在很多任务上已经是人类水平(human-level),在很多专业和学术考试上超越90%的人类。”出门问问创始人&CEO李志飞评论称。
除了足够“聪明”之外,相较于此前的GPT模型而言,GPT-4最大的突破之一是在文本之外还能够处理图像内容。OpenAI表示,用户同时输入文本和图像的情况下,比如带有文本和照片的文档、图表或者屏幕截图,它能够生成相应的自然语言和代码等文本。
除了普通图片,GPT-4还能处理更复杂的图像信息,包括表格、考试题目截图、论文截图、漫画等。
此外,在多语种方面,GPT-4也体现出优越性。在测试的26种语言中,GPT-4在24种语言方面的表现均优于GPT-3.5等其他大语言模型的英语语言性能,其中包括部分低资源语言如拉脱维亚语、威尔士语等。在中文语境中,GPT-4能够达到80.1%的准确性。
与ChatGPT语言风格平静、固定冗长的特点不同, GPT-4引入了全新的API功能“系统”消息,允许用户以及开发人员通过该功能定制AI风格和任务,实现不同的用户体验。
尽管GPT-4功能强大,但同时OpenAI仍坦言,与早期GPT模型类似,GPT-4也具备局限性。其依然会形成推理错误,因而在使用语言模型输出时需要非常小心,最好以人工核查、附加上下文或避免高风险使用的方式予以辅助。
在参数量方面,此次OpenAI并未公布GPT-4的模型参数和数据规模,也并未给出技术原理。此前,GPT-3的参数量则为1750亿。OpenAI 表示,正在开源 OpenAI Evals 软件框架,它被用于创建和运行基准测试以评估GPT-4 等模型,同时可以逐样本地检查模型性能。
“GPT-4的模型发布,本身是技术持续升级迭代发展的必然阶段。AI行业每一年都会有些新模型发布,趋势就是大模型、多模态。”在接受21世纪经济报道记者采访时,IDC中国研究总监卢言霞表示,“多模态肯定是必然趋势,毕竟AI要真正达到人的智慧,需要处理多模数据。且在各行业场景里,大都是涉及多模态数据的处理。”
探索商业应用
尽管GPT-4已经引爆舆论,多位从业人员跃跃欲试,但目前GPT-4没有免费版本。
从应用角度而言,在GPT-4发布后,OpenAI也直接升级了ChatGPT。目前,GPT-4的访问权限仅面向ChatGPT Plus的付费订阅用户及企业和开发者开放。OpenAI方面称,想要访问GPT-4的API,用户可以注册等待,公司将邀请部分开发者进行体验。
目前,GPT-4已有部分行业应用。根据OpenAI官网给出的案例,GPT4已在教育、社会公益、金融、娱乐等方面进行应用并展开商业合作,包括Duolingo(多邻国)、Khan Academy(可汗学院)等教育企业。
此外,在微软的产品生态中,GPT-4也有落地。在GPT-4发布后,微软方面宣布,目前全新必应预览版中已经搭载了定制版本的GPT-4。
“微软有望在产业中通过GPT-4不断拓展下游新兴领域,应用于更多的场景中,并利用其多模态模型成本改变传统AI客制化与定制化的特点,逐步向通用化方向发展。”华鑫证券计算机研究团队分析称。
作为微软的对手之一,谷歌也在紧锣密鼓地追赶ChatGPT。近日,谷歌联合柏林工业大学团队推出史上最大的视觉语言模型――【【微信】】,参数量高达5620亿。作为一种多模态具身视觉语言模型(VLM),【【微信】】不仅可以理解图像,还能理解、生成语言,可以执行各种复杂的机器人指令而无需重新训练。
而在3月14日,谷歌进一步宣布,计划将人工智能技术整合到Gmail电子邮件和Google Docs文档等办公应用中。谷歌的一位发言人表示,将向部分个人消费者和一些商业及教育用户开放上述新功能,但并未说明何时将广泛推出这些新功能,以及是否会额外收费。
不过从用户角度而言,对GPT-4的热情仍高于一切。由于GPT-4仅限于ChatGPT Plus订阅用户使用,当晚大批新订用户涌入,以至于OpenAI的付款系统一度宕机。
不仅仅是GPT-4,市面上所有的大模型,都有可能替代现有的AI应用。关键是在哪些场景里,大模型能够取得比现有应用更好的效果。(实习生陈军燕对本文亦有贡献)
gpt3的到来程序员会被ai取代吗
继ChatGPT引发广泛关注后,今天凌晨,美国人工智能研究公司OpenAI发布了多模态预训练大模型 GPT-4.相比之前的版本,GPT-4有哪些“升级”?其技术有无明显突破?我国在多模态大模型方面的基础研究如何?什么时候也能有这样的“爆款”?解放日报・上观新闻记者专访了上海市人工智能学会秘书长、同济大学电子与信息学院教授汪镭。
【在技术创新上并无过多新意】
解放日报・上观新闻:前段时间引发关注的智能聊天工具ChatGPT是基于GPT-3.5架构开发的,GPT-4的“升级”体现在哪方面?技术上有何新意?
汪镭:GPT-3.5版本的工作模式,是以文字表达及交互为基础,是计算平台对于大数据的处理能力有限时,采取的一种逐步推进的交互模式,能够持续吸引大众的参与,也不会因响应速度太慢而造成大众参与热情的迅速溃退。
而GPT-4的升级,已不仅仅是文字及符号模式的交互采集,它还以图像和音频等多模态信息为表现形式,拓展了人机交互接口功能,加强了对知识推理的模拟,是一次实用技术的进步。
但GPT-4本身需要大量的用户积累和大数据算法分析,属于预训练的传统人工智能模式,其在技术创新上并无过多新意。
解放日报・上观新闻:GPT-4可以对一张图片的结构进行识别,这背后的技术难度大吗?
汪镭:GPT-4的目标,是对人机交互方式的拓展,目前已推广至图像领域,也带动了平台信息识别和交互技术的进一步突破。从技术难度讲,音像识别处理过程中所依托的智能图像处理和智能音频信息识别能力,相比文字采集、识别推理技术,从维度及识别模式上有了一定拓展,但技术本身并无明显的突破。它需要的是更大范围的大众以音像形式的表达参与,因此可以说,GPT-4是一次社会推广特征更为明显的广告行为。
解放日报・上观新闻:所谓多模态大模型,能否通俗易懂地解释一下?
汪镭:可以理解为各类信息多种形式的存在及交互方式,比如文字、视觉、听觉、触觉、味觉等模式的信息表达。社会交互模型以多模态大数据实时体现时,可以从各个侧面反映社会运行的状况。
【它是否可以预测你的下一个问题】
解放日报・上观新闻:微软营销主管在 GPT-4 发布后第一时间表示,在过去六周内,微软的新必应早就已经用上了GPT-4.这将给搜索引擎领域带来怎样的冲击和变化?
汪镭:搜索模式训练完成之后,可以为搜索引擎领域节省很大的人力和物力,但这离不开训练数据的针对性搜集和准确性学习。如果需要的是准确的权威知识搜索,ChatGPT目前这种游戏式交互表达模式,并不能够真正完成任务。
解放日报・上观新闻:OpenAI公司认为GPT-4 大大优于现有的大型语言模型。您对此怎么看?
汪镭:GPT-4的语言模式和交互方式设计,从技术上并没有真正突破性的内容。如果没有具体的大数据学习样本积累,再好的大型语言模型,在小样本的数据准备及采集条件下也是徒劳的。因此,GPT-4背后的资本平台和技术推广平台所需要的,正是大规模的社会参与和数据积累,以及低成本的社会推广。
由于我国的大众信息运行平台当前还建立在别人的框架范围之内,如果对全民进行实时交互的数据采集和识别,可能会对国家安全带来一定的挑战。
解放日报・上观新闻:从GPT-3.5到GPT-4,大家感觉它“聪明”了许多,请问下一次迭代大概什么时候到来?对GPT来说,关键点的突破是算法上的还是算力上?
汪镭:在形式空间和内容空间的维度拓展之后,下一步必然是时间维度的拓展,也就是对时间意义上的各类信息的合理处理和推广能力。
比如说,它是否可以预测你的下一个问题,是否可以预测你对它的回答的态度改变,预先进行相关的对策方案设计,给出对你态度发展方向的合理引导?如果这样,它不仅需要在算法上有更高的时间拓展性能,还要更高的空间拓展性能,这必然对算法及平台性智能策略研究有更高要求。而GPT算法实现的关键,必然是以平台算力的实现为基础,需要更大强度的计算平台,以及创新平台投资、更大范围和强度的政府运行机制支持。
解放日报・上观新闻:我国在多模态大模型方面的基础研究状况如何?什么时候也能有这样的“爆款”?
汪镭:从多模态大模型研究本身而言,我们和国外并无太大差距,相关专家在中国并不缺乏。如果要产生此类“爆款”,需要长期的技术平台运行知识准备和资本准备,需要学习平台的技术预测、社会响应预测及社会推广策略。
(文章来源:上观新闻)