淘优惠

淘优惠

02 GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API ?来源:机器之心

双十一活动 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】


文|许档? 编| 展洋
出品|商业秀
现如今,只要ChatGPT一有任何风吹草动,就会马上搅动国内外各大科技公司、投资人和创业公司的心。
北京时间3月15日的凌晨,OpenAI有了新突破。在经历了多次迭代和改进升级后,OpenAI重磅发布了更为强大的版本GPT-4。而且,这个版本的具备强大的识图能力,文字输入限制也提升至2.5万字;甚至可以支持文字和图片的混合输入。
此外,GPT-4的回答在准确性层面也显著提升,还能够生成歌词、创意文本从而实现风格变化。同时,GPT-4在各类专业测试及学术基准上也表现优良。
这操作,相当于深夜扔出了一个炸弹,让国内外的ChatGPT迷们为之惊叹。
就连猎豹移动董事长兼CEO、猎户星空董事长傅盛都在凌晨发布视频惊呼:“真的是太恐怖了!你说我们人类还学什么呢?它一个人工智能模型就能考出这样的分数,这才是它刚刚开始啊!哎,人类的教育该何去何从呢?说实话,我都有点迷茫了!”
随后傅盛称,自己只是刚刚使用,但他想告诉大家,“GPT-4非常非常恐怖,是整个世界的生产力变革。但不论如何,一个技术浪潮的来临,只有先拥抱,所有的人都应该去关心新的AI,新的ChatGPT-4。”
这种所谓的“恐怖”,一幕幕惊叹,感觉又是人类再次被AI碾压的一天。这很难不让人想起2016年往事:谷歌旗下的DeepMind团队向李世石九段,发起了围棋五番棋挑战并轻松获胜。
AI机器人“阿尔法狗”(AlphaGo)及其继任者,尚且全面碾压人类棋手。何况,迭代之后似乎无所不能的ChatGPT-4。
但人类在惊叹“恐怖”的同时,似乎也忘记了一点:人工智能有Bug,也会犯错,或大或小,像极了人类。
ChatGPT更是如此,即便饲喂了如此多的数据,迭代了如此多的版本,OpenAI也还是表示:GPT-4仍旧会产生幻觉、生成错误答案,出现推理性错误。
更值得玩味的是,OpenAI发布GPT-4的节点甚为有趣,因为国内的科技公司百度将于明天(3月16日)对外发布文心一言,外界对此极为期待。
01 所谓“震撼”
根据OpenAI的介绍,它是一个大型多模态模型,能接受图像和文本输入,再输出正确的文本回复。
但关于GPT-4,已经有多家媒体把它吹爆了。毋庸置疑,没有对比就没有伤害。和ChatGPT-3.5相比,确实强大了不少。
GPT-4实现了以下几个方面的飞跃式提升:强大的识图能力;文字输入限值提升至2.5万字;回答准确性显著提高;能够生成歌词、创意文本,实现风格变化。
比如在日常对话中,GPT-4与GPT-3.5之间的差距或许微妙。但当任务的复杂度足够高,差异就会很明显,GPT-4就表现出更可靠、更具创造性,还能能处理更细致的指令。
根据OpenAI公布的实验数据,GPT-4在各种专业测试和学术基准上的表现与人类水平相当。比如,它通过了模拟律师考试,且分数在应试者的前10% 左右;相比之下,GPT-3.5的得分在倒数10% 左右。
但相较于此前的GPT模型而言,GPT-4最大的突破之一是在文本之外还能够处理图像内容。OpenAI表示,用户同时输入文本和图像的情况下,它能够生成自然语言和代码等文本。
目前在官网上,OpenAI已经给出了一系列相关案例。例如,在GPT-4输入图片并设问“这些图片有何可笑之处?详细描述一下。”
GPT-4便会在对每张图片进行表述后表示,“这幅图的幽默之处在于,把一个大而过时的VGA接口插入一个小而现代的智能手机充电端口是荒谬的。”
除了普通图片,GPT-4还能处理更复杂的图像信息,包括表格、考试题目截图、论文截图、漫画等。
此外,在多语种方面,GPT-4也体现出优越性。在测试的26种语言中,GPT-4在24种语言方面的表现均优于GPT-3.5等其他大语言模型的英语语言性能,其中包括部分低资源语言如拉脱维亚语、威尔士语等。在中文语境中,GPT-4能够达到80.1%的准确性。
与此前的GPT模类似,GPT-4基础模型可在训练完预测文档中的单词。在数据样本方面,也同样使用公开可用的数据及许可数据。为了提升基础模型回应与用户之间意图的匹配性,OpenAI同样选择了强化学习人类反馈(RLHF)来微调模型行为。
02 “不完美”
尽管GPT-4如此震撼、功能强大,OpenAI坦言也甚至有“不完美”之处。
其指出,在模型训练方面,GPT-4建立了可预测扩展的深度学习栈。通过开发基础设施及优化,在多种规模下都可进行预测。为验证其可扩展性,团队提前准确预测了GPT-4在内部代码库上的优化指标,但使用的计算量仅为万分之一。
GPT-4仍与早期的 GPT 模型具有相似的局限性,其中最重要的一点是它仍然不完全可靠。OpenAI 表示,GPT-4仍然会产生幻觉、生成错误答案,并出现推理错误。
目前,使用语言模型应谨慎审查输出内容,必要时使用与特定用例的需求相匹配的确切协议(例如人工审查、附加上下文或完全避免使用) 。
总的来说,GPT-4相对于以前的模型(经过多次迭代和改进)已经显著减轻了幻觉问题。在 OpenAI 的内部对抗性真实性评估中,GPT-4的得分比最新的 GPT-3.5模型高40%:
GPT-4在 TruthfulQA 等外部基准测试方面也取得了进展,OpenAI 测试了模型将事实与错误陈述的对抗性选择区分开的能力,结果如下图所示。
实验结果表明,GPT-4基本模型在此任务上仅比 GPT-3.5略好;然而,在经过 RLHF 后训练之后,二者的差距就很大了。以下是 GPT-4的测试示例 ―― 并不是所有时候它都能做出正确的选择。
该模型在其输出中可能会有各种偏见,OpenAI 在这些方面已经取得了进展,目标是使建立的人工智能系统具有合理的默认行为,以反映广泛的用户价值观。
GPT-4通常缺乏对其绝大部分数据截止后(2021年9月)发生的事件的了解,也不会从其经验中学习。它有时会犯一些简单的推理错误,这似乎与这么多领域的能力不相符,或者过于轻信用户的明显虚假陈述。有时它也会像人类一样在困难的问题上失败,比如在它生成的代码中引入安全漏洞。
GPT-4预测时也可能出错但很自信,意识到可能出错时也不会 double-check。有趣的是,基础预训练模型经过高度校准(其对答案的预测置信度通常与正确概率相匹配)。然而,通过 OpenAI 目前的后训练(post-training)过程,校准减少了。
同时,与早期GPT模型类似,GPT-4也具备局限性。GPT-4依然会形成推理错误,因而在使用语言模型输出时需要非常小心,最好以人工核查、附加上下文或避免高风险使用的方式予以辅助。
“GPT4的模型发布,本身是技术持续升级迭代发展的必然阶段。AI行业每一年都会有些新模型发布,趋势就是大模型、多模态。”
在接受21世纪经济报道记者采访时,IDC中国研究总监卢言霞表示,“多模态肯定是必然趋势,毕竟AI要真正达到人的智慧,需要处理多模数据。且在各行业场景里,大都是涉及多模态数据的处理。”
03?担忧与接受
对于ChatGPT,人类一直担心的是,对于超出安全边界和敏感的问题,怎么去训练和规避以及提升它的安全性能?
OpenAI 表示,与之前的 GPT 模型一样,GPT-4基础模型经过训练可以预测文档中的下一个单词。OpenAI 使用公开可用的数据(例如互联网数据)以及已获得许可的数据进行训练。
训练数据是一个网络规模的数据语料库,包括数学问题的正确和错误解决方案、弱推理和强推理、自相矛盾和一致的陈述,以及各种各样的意识形态和想法。
因此,当提出问题时,基础模型的回应可能与用户的意图相去甚远。为了使其与用户意图保持一致,OpenAI 依然使用强化学习人类反馈 (RLHF) 来微调模型的行为。而该模型的能力似乎主要来自预训练过程 ――RLHF 不会提高考试成绩(甚至可能会降低它)。但是模型的控制来自后训练过程 ―― 基础模型甚至需要及时的工程设计来回答问题。
关于风险和安全,OpenAI 研究团队称,一直在对 GPT-4进行迭代,使其从训练开始就更加安全和一致,所做的努力包括预训练数据的选择和过滤、评估和专家参与、模型安全改进以及监测和执行。
GPT-4有着与以前的模型类似的风险,如产生有害的建议、错误的代码或不准确的信息。
同时,GPT-4的额外能力导致了新的风险面。为了了解这些风险的程度,团队聘请了50多位来自人工智能对齐风险、网络安全、生物风险、信任和安全以及国际安全等领域的专家,对该模型在高风险领域的行为进行对抗性测试。这些领域需要专业知识来评估,来自这些专家的反馈和数据为缓解措施和模型的改进提供了依据。
或许更值得关注的问题是,人类的很多领域继续会被人工智能颠覆。在机器面前,人类似乎又渺小了不少。
《人类简史》的作者赫拉利总是在强调一项事实:人类并不是多么了不起的物种;人类之有今天,缘于各种生物和进化上的巧合,纯属狗屎运。
人类虽已拥有改变世界的技术能力,心智却严重落伍,他们在生理上与两万年前的祖先没有本质区别。甚至在全书结尾,赫拉利给人类下的判词是:“拥有神的能力,但是不负责任、贪得无厌,而且连想要什么都不知道。天下危险,恐怕莫此为甚。”
在不断迭代的新技术面前,无论人类有多少惊叹和担忧,首先都必须先选择:去接受,去拥抱,然后才是创造和改变。
「参考资料」
01? OpenAI?官网
03 逐浪AIGC①丨OpenAI正式发布GPT-4 向超级AI进发??来源:21世纪经济报道?
04?刚刚,ChatGPT-4发布,全方位碾压老版本 来源:知危
@新媒体制作与运营:林晓? ?
@图文校对与视频后期:李浩珉
@文章开白、投稿合作请联系:
@更多线索爆料请联系我们:
理解数智科技,看见商业价值

csgo对配置有太大要求吗 维生素b6对头发有好处吗

csgo对配置有太大要求怎么解决,csgo对于配置的要求,cs go要求配置,csgo的最低配置

文|光锥智能,作者|周文斌,编辑|王一粟

GPT-4惊艳亮相后,压力来到百度这边。

上台后的李彦宏和百度CTO王海峰都略显紧张,这在多年百度相关活动中还是非常少见。李彦宏坦言,“文心一言对标ChatGPT、甚至是对标GPT-4,门槛是很高的。我自己测试感觉还是有很多不完美的地方。”

文心一言是一个大语言模型、生成式AI产品,发布会上演示了五个使用场景中的综合能力。其中,文学创作、商业文案创作、数理推算是大语言模型常见的能力,在此基础上,中文理解及多模态生成能力更能体现技术水平。

到今日晚间,「光锥智能」拿到文心一言的内测邀请码,在提出多个问题测试之后我们发现,文心一言与New Bing虽然有差距,但整体要比预期更好。比如在为商业访谈类栏目起名、对洛希极限的解释上都十分完整。但同时也存在一些不足,比如在计算“同时抽水和放水”的数学问题时,文心一言就出现了审题错误。

金玉在前,百度在文心一言发布会召开后,无论是产品口碑,还是股价表现,短期内一定会有压力。毕竟,世界上还只有一个OpenAI。

面对如此大的压力,李彦宏回应了为什么依然要在3月16日公开发布的原因:第一是市场需求,无论是百度的产品,还是客户,都有需求。第二是收集反馈,“一旦有了真实的人类反馈,文心一言的进步速度会非常快,我们都希望它快点成长”。

事实上,在ChatGPT惊艳亮相之前,GPT的1~3版本,都是在长期低调开源测试后,才达到了后面的结果。

短期表现和长期价值还是有所不同,抛开情绪,我们更关心,文心一言和GPT-4在技术上有哪些相同和不同?模型真的是越大越好吗?利用大模型的产业化之路,应该怎么走?

文心一言在发布会上相对出彩的展示,莫过于多模态生成。

在发布会上,李彦宏先是让文心一言为2023智能交通大会生成了一张海报,然后又让其撰写了一段关于智能交通的文字,并让其用四川话读出来,最后还让文心一言用这些素材生成了一段视频。

昨天,在GPT-4的发布会上,Open AI总裁和联合创始人Greg Brockman展示了GPT-4基于一张草图生成网站的过程,让许多人知道了大模型单模态与多模态的区别。

GPT-4是一个典型的多模态预训练模型,它能够支持图像和文本的输入,然后以文本的方式输出。而文心一言展示的则是以文本的方式输入,以文本、语音、图像和视频的方式输出。

输入和输出其实具有本质上的区别。

有AI开发从业者向光锥智能表示,多模态输出其实并不难,难的是输入。比如输出语音,不过是先输出文字然后再加一个TTS技术,已经很成熟了。

而多模态输入,则需要大模型真正“长出眼睛”读懂图片意思,需要在预训练阶段就将图片和图片标注信息放入训练数据中。

比如这次GPT-4令人惊艳的强大,就表现在图片理解上。

给到一个物理题的照片,GPT-4能够读懂题目然后解答。

GPT-4还能识别图片中的幽默部分,比如给GPT-4一个长相奇怪的充电器的图片,问为什么这很可笑?GPT-4能回答说,因为VGA线充【【微信】】。

但无论怎么说,从GPT-4到文心一言都在说明李彦宏的那句话,“多模态是生成式AI一个明确的发展趋势。”

据王海峰介绍,文心一言主要脱胎于两大模型,百度ERNIE系列知识增强千亿大模型,以及百度大规模开放域对话模型PLATO。

此基础上,主要采用了六项核心技术,包括监督精调、人类反馈强化学习(RLHF)、提示构建、知识增强、检索增强和对话增强技术。

其中,人类反馈强化学习是目前大模型训练中普遍应用到的技术,ChatGPT能够在GPT-3的基础上产生质变,成为跨时代的产品,很大程度上依赖于此。

这些技术中具有百度特色的主要是知识增强、检索增强和对话增强技术。

其中,知识增强主要包含知识内化和知识外用两部分,知识内化又包括语义学习和数据构造,知识外用则包含知识推理和提示构架。

这些技术又都基于百度的知识图谱。所谓知识图谱是一个宏大的数据模型,是指一个由世间万物构成的“实体”以及他们之间的“关系”构建起来的庞大“知识”网络。

百度CTO王海峰曾介绍,“百度构建了世界上最大规模的知识图谱,拥有超过50亿实体,5500亿事实,能够通过语言、听觉、视觉等获得对世界的统一认知,突破了实际应用中场景复杂多变、数据稀缺等难题。”

在这个知识图谱中,除了基础的通用图谱之外,百度还针对不同的应用场景和知识形态,构建了事件图谱、多媒体图谱、行业知识图谱等多种图谱。

检索增强则与百度在搜索引擎上的技术积累有关,简单理解就是,当用户问出一个问题后,文心一言会先通过搜索引擎将知识都检索一遍,然后再筛选整合其中有用的信息作为输出。

最后的对话理解,则包含百度积累的记忆机制,上下文理解,对话规划等等。

除了基础技术架构,百度并没有公布模型结构和参数,而是花了大量的时间用来解释自己在文心大模型、产业大模型、AI技术四层构架上的布局。

由于这都是此前积累的能力,因此这次文心一言的发布,不像是百度研发了一个新产品和新技术,更像是百度将之前所有的工作打包,以文心一言的方式整合输出。所以,我们会在文心一言里看到文心一格的图片生成,会看到已经在百家号应用的自动图文转视频的功能。

就像李彦宏提到的一样,“从某种意义上说,我们已经为此准备了多年,十几年前就开始投入AI研究,2019年就推出了文心大语言模型,今天的文心一言是过去多年努力的延续。”

虽然除了OpenAI,其他的公司目前都是others,但大家都在摸着GPT过河,在寻找更优质的模型方案。中国公司也一直在积极探索相应大模型的研发和应用,并总结出了许多“中国经验”。

什么样的模型是一个好模型?模型真的是越大越好吗?

要回答这个问题,得先理解,ChatGPT和GPT-4能表现出类人的图片和语言理解能力,就是因为“涌现现象”,说得通俗一点,就是“开窍了”。

涌现现象,是指在当大模型的数规模达到一定程度时,其解决问题的能力就会发生突变。大模型能力的提升,很大程度上依赖于这种涌现能力,也就是“大力出奇迹”。所以,现在模型规模被越做越大,一定程度上因为大家想要通过增大参数规模来获得更多的涌现能力。

目前这一能力通常在百亿、千亿级别的参数区间出现。“但具体多少参数能够出现涌现现象,也与具体任务、具体模型有关,某些任务13B规模即可,有些任务需要540B,大部分要达到70B。”新浪新技术研发负责人张俊林提到。

但模型做大之后,却又带来产业落地方面的问题。比如更大的模型通常意味着更大的算力消耗,更高的部署成本,这让一些垂类领域,如学校,医院等场景很难负担得起。

因此,在产生“涌现能力”的阈值后,如何将模型做“小”反而是产业落地的一个重要课题,并且也是技术发展的一个重要方向。

那么问题来了,如何既将模型做小,又能保证涌现能力呢?

张俊林提到几个例子,比如DeepMind发布的Chinchilla和Meta发布的LLaMA,其中Chinchilla的模型规模只有70B,LLaMA的模型规模在7B到65B之间,都是目前规模相对较小的模型。

而从实验结果上看,即使模型规模相对较小也同样可以具备涌现能力,但前提是增加更多的训练数据量。以Chinchilla为例,其对标的模型规模是280B是Gopher,而Chinchilla能够以70B的参数规模做出同样的效果,代价是将训练数据提升了4倍。

因此,张俊林认为:“减小模型大小增加训练数据数量,可能不影响小模型的涌现能力。”这成为做小模型的一个前提。“在这样的基础上,我们或许可以先做小,再做大。”

在解决了涌现能力之外,将模型做小的另一个原因在于,现在大模型的许多参数其实并没有被有效利用。

DeepMind在2022年的一个研究中提到,在给定总计算量不变的情况下,模型训练Loss在模型参数量和训练数据量的变化存在一个最优的平衡点。

该研究给出了三种最优计算方式,并且比较了GPT-3等千亿模型,发现它们都没有达到理论上的最优点,这意味着GPT-3庞大的数据其实并没有被充分利用。

达观数据董事长CEO陈运文认为,当下的千亿参数模型可能只发挥了百亿模型的理论效果,一些参数可能被浪费了。换句话说,千亿规模的大模型其实是可以压缩,并做得更小的。

Meta在这方面就曾做过尝试,2023年Meta推出百亿规模的模型LLaMA,虽然参数规模只有百亿,不到GPT-3的十分之一,但通过实验显示在下游任务中的表现好于GPT-3等千亿规模的模型。这其中的关键在于,Meta使用了1.4万亿Token,是GPT-3的近4.7倍。

所以陈运文也认为,“整体来看尽管模型的参数规模越大越好,但性价比更高的参数规模方案仍然值得探索。”

除了将“大”模型做“小”更利于产业落地之外,通过更新指令学习方法,用更小的样本获得更好的学习效果也是目前国内在探索的方向。

做这样的探索也和目前中文产业面临的客观环境有关。一方面,中文数据在整个互联网中的占比本身就比较小,仅有5%左右。另一方面,即使数量庞大的英文数据在模型爆炸的今天也面临着即将被耗尽的问题。

有研究预计,互联网上可用的数据资源很有可能会被耗尽,其中高质量的语言数据大约在2026年耗尽,低质量语言数据大约在2050年耗尽,视觉图像数据也将在2060年耗尽。

因此,如何提高数据的利用效率成为一个重要的课题。

目前,AI大模型的理解能力主要来源于两个方面,即“预训练+参数微调”以及“预训练+提示学习”,这两个学习方式各有优劣。

其中“预训练+参数微调”会面临资源占用过多,过拟合问题严重,缺乏通用能力等问题。而提示学习也有单一的外部提示信号难以最大限度地激发预训练大模型的能力,从而高质量地完成具体任务的问题。

在这样的背景下,行业提出了从提示学习到指令学习的改变。

所谓指令学习,是指通过若干任务相关提示增强来监督数据,优化模型参数。即通过参数微调提升多任务执行效果,利用提示语出发模型执行特定任务。

其核心在于,它仍然像微调一样调整其中的参数来使大模型适应不同的任务,但调整完成之后的模型是一样的,所有的任务都可以对应一个模型。

有了这样的调整,对大模型的训练效率就会提升。

比如在Google的一个案例中,他们在62个数据集中的40个任务进行训练。但模型参数达到百亿规模之后,这几十个参数的联合指令学习却可以解决许多之前未训练的问题。

在这之前,大家普遍应用的是多任务学习,即学习一个任务解决一个任务,没有学习过的任务就没法解决。而在这之后,一些之前没有训练过的任务也能够被解决,即大模型的通用能力在增强。

但要实现这个问题,找到合适的指令就变得非常重要,毕竟不同的任务、不同的样本、用什么样的提示语才能获得更好结果是需要去尝试的。

这也是OpenAI选择免费开放ChatGPT的一个重要原因,因为它需要通过这种方式收集全球的问题指令,来完成大模型的进一步优化。

李彦宏也在文心一言发布会上提到,之所以选择在这个时候发布文心一言,除了许多业务和客户需要这项技术外,也因为文心一言本身需要通过用户使用来收集数据。

<