02 GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API ?来源:机器之心
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
csgo对配置有太大要求吗 维生素b6对头发有好处吗
csgo对配置有太大要求怎么解决,csgo对于配置的要求,cs go要求配置,csgo的最低配置文|光锥智能,作者|周文斌,编辑|王一粟
GPT-4惊艳亮相后,压力来到百度这边。
上台后的李彦宏和百度CTO王海峰都略显紧张,这在多年百度相关活动中还是非常少见。李彦宏坦言,“文心一言对标ChatGPT、甚至是对标GPT-4,门槛是很高的。我自己测试感觉还是有很多不完美的地方。”
文心一言是一个大语言模型、生成式AI产品,发布会上演示了五个使用场景中的综合能力。其中,文学创作、商业文案创作、数理推算是大语言模型常见的能力,在此基础上,中文理解及多模态生成能力更能体现技术水平。
到今日晚间,「光锥智能」拿到文心一言的内测邀请码,在提出多个问题测试之后我们发现,文心一言与New Bing虽然有差距,但整体要比预期更好。比如在为商业访谈类栏目起名、对洛希极限的解释上都十分完整。但同时也存在一些不足,比如在计算“同时抽水和放水”的数学问题时,文心一言就出现了审题错误。
金玉在前,百度在文心一言发布会召开后,无论是产品口碑,还是股价表现,短期内一定会有压力。毕竟,世界上还只有一个OpenAI。
面对如此大的压力,李彦宏回应了为什么依然要在3月16日公开发布的原因:第一是市场需求,无论是百度的产品,还是客户,都有需求。第二是收集反馈,“一旦有了真实的人类反馈,文心一言的进步速度会非常快,我们都希望它快点成长”。
事实上,在ChatGPT惊艳亮相之前,GPT的1~3版本,都是在长期低调开源测试后,才达到了后面的结果。
短期表现和长期价值还是有所不同,抛开情绪,我们更关心,文心一言和GPT-4在技术上有哪些相同和不同?模型真的是越大越好吗?利用大模型的产业化之路,应该怎么走?
文心一言在发布会上相对出彩的展示,莫过于多模态生成。
在发布会上,李彦宏先是让文心一言为2023智能交通大会生成了一张海报,然后又让其撰写了一段关于智能交通的文字,并让其用四川话读出来,最后还让文心一言用这些素材生成了一段视频。
昨天,在GPT-4的发布会上,Open AI总裁和联合创始人Greg Brockman展示了GPT-4基于一张草图生成网站的过程,让许多人知道了大模型单模态与多模态的区别。
GPT-4是一个典型的多模态预训练模型,它能够支持图像和文本的输入,然后以文本的方式输出。而文心一言展示的则是以文本的方式输入,以文本、语音、图像和视频的方式输出。
输入和输出其实具有本质上的区别。
有AI开发从业者向光锥智能表示,多模态输出其实并不难,难的是输入。比如输出语音,不过是先输出文字然后再加一个TTS技术,已经很成熟了。
而多模态输入,则需要大模型真正“长出眼睛”读懂图片意思,需要在预训练阶段就将图片和图片标注信息放入训练数据中。
比如这次GPT-4令人惊艳的强大,就表现在图片理解上。
给到一个物理题的照片,GPT-4能够读懂题目然后解答。
GPT-4还能识别图片中的幽默部分,比如给GPT-4一个长相奇怪的充电器的图片,问为什么这很可笑?GPT-4能回答说,因为VGA线充【【微信】】。
但无论怎么说,从GPT-4到文心一言都在说明李彦宏的那句话,“多模态是生成式AI一个明确的发展趋势。”
据王海峰介绍,文心一言主要脱胎于两大模型,百度ERNIE系列知识增强千亿大模型,以及百度大规模开放域对话模型PLATO。
此基础上,主要采用了六项核心技术,包括监督精调、人类反馈强化学习(RLHF)、提示构建、知识增强、检索增强和对话增强技术。
其中,人类反馈强化学习是目前大模型训练中普遍应用到的技术,ChatGPT能够在GPT-3的基础上产生质变,成为跨时代的产品,很大程度上依赖于此。
这些技术中具有百度特色的主要是知识增强、检索增强和对话增强技术。
其中,知识增强主要包含知识内化和知识外用两部分,知识内化又包括语义学习和数据构造,知识外用则包含知识推理和提示构架。
这些技术又都基于百度的知识图谱。所谓知识图谱是一个宏大的数据模型,是指一个由世间万物构成的“实体”以及他们之间的“关系”构建起来的庞大“知识”网络。
百度CTO王海峰曾介绍,“百度构建了世界上最大规模的知识图谱,拥有超过50亿实体,5500亿事实,能够通过语言、听觉、视觉等获得对世界的统一认知,突破了实际应用中场景复杂多变、数据稀缺等难题。”
在这个知识图谱中,除了基础的通用图谱之外,百度还针对不同的应用场景和知识形态,构建了事件图谱、多媒体图谱、行业知识图谱等多种图谱。
检索增强则与百度在搜索引擎上的技术积累有关,简单理解就是,当用户问出一个问题后,文心一言会先通过搜索引擎将知识都检索一遍,然后再筛选整合其中有用的信息作为输出。
最后的对话理解,则包含百度积累的记忆机制,上下文理解,对话规划等等。
除了基础技术架构,百度并没有公布模型结构和参数,而是花了大量的时间用来解释自己在文心大模型、产业大模型、AI技术四层构架上的布局。
由于这都是此前积累的能力,因此这次文心一言的发布,不像是百度研发了一个新产品和新技术,更像是百度将之前所有的工作打包,以文心一言的方式整合输出。所以,我们会在文心一言里看到文心一格的图片生成,会看到已经在百家号应用的自动图文转视频的功能。
就像李彦宏提到的一样,“从某种意义上说,我们已经为此准备了多年,十几年前就开始投入AI研究,2019年就推出了文心大语言模型,今天的文心一言是过去多年努力的延续。”
虽然除了OpenAI,其他的公司目前都是others,但大家都在摸着GPT过河,在寻找更优质的模型方案。中国公司也一直在积极探索相应大模型的研发和应用,并总结出了许多“中国经验”。
什么样的模型是一个好模型?模型真的是越大越好吗?
要回答这个问题,得先理解,ChatGPT和GPT-4能表现出类人的图片和语言理解能力,就是因为“涌现现象”,说得通俗一点,就是“开窍了”。
涌现现象,是指在当大模型的数规模达到一定程度时,其解决问题的能力就会发生突变。大模型能力的提升,很大程度上依赖于这种涌现能力,也就是“大力出奇迹”。所以,现在模型规模被越做越大,一定程度上因为大家想要通过增大参数规模来获得更多的涌现能力。
目前这一能力通常在百亿、千亿级别的参数区间出现。“但具体多少参数能够出现涌现现象,也与具体任务、具体模型有关,某些任务13B规模即可,有些任务需要540B,大部分要达到70B。”新浪新技术研发负责人张俊林提到。
但模型做大之后,却又带来产业落地方面的问题。比如更大的模型通常意味着更大的算力消耗,更高的部署成本,这让一些垂类领域,如学校,医院等场景很难负担得起。
因此,在产生“涌现能力”的阈值后,如何将模型做“小”反而是产业落地的一个重要课题,并且也是技术发展的一个重要方向。
那么问题来了,如何既将模型做小,又能保证涌现能力呢?
张俊林提到几个例子,比如DeepMind发布的Chinchilla和Meta发布的LLaMA,其中Chinchilla的模型规模只有70B,LLaMA的模型规模在7B到65B之间,都是目前规模相对较小的模型。
而从实验结果上看,即使模型规模相对较小也同样可以具备涌现能力,但前提是增加更多的训练数据量。以Chinchilla为例,其对标的模型规模是280B是Gopher,而Chinchilla能够以70B的参数规模做出同样的效果,代价是将训练数据提升了4倍。
因此,张俊林认为:“减小模型大小增加训练数据数量,可能不影响小模型的涌现能力。”这成为做小模型的一个前提。“在这样的基础上,我们或许可以先做小,再做大。”
在解决了涌现能力之外,将模型做小的另一个原因在于,现在大模型的许多参数其实并没有被有效利用。
DeepMind在2022年的一个研究中提到,在给定总计算量不变的情况下,模型训练Loss在模型参数量和训练数据量的变化存在一个最优的平衡点。
该研究给出了三种最优计算方式,并且比较了GPT-3等千亿模型,发现它们都没有达到理论上的最优点,这意味着GPT-3庞大的数据其实并没有被充分利用。
达观数据董事长CEO陈运文认为,当下的千亿参数模型可能只发挥了百亿模型的理论效果,一些参数可能被浪费了。换句话说,千亿规模的大模型其实是可以压缩,并做得更小的。
Meta在这方面就曾做过尝试,2023年Meta推出百亿规模的模型LLaMA,虽然参数规模只有百亿,不到GPT-3的十分之一,但通过实验显示在下游任务中的表现好于GPT-3等千亿规模的模型。这其中的关键在于,Meta使用了1.4万亿Token,是GPT-3的近4.7倍。
所以陈运文也认为,“整体来看尽管模型的参数规模越大越好,但性价比更高的参数规模方案仍然值得探索。”
除了将“大”模型做“小”更利于产业落地之外,通过更新指令学习方法,用更小的样本获得更好的学习效果也是目前国内在探索的方向。
做这样的探索也和目前中文产业面临的客观环境有关。一方面,中文数据在整个互联网中的占比本身就比较小,仅有5%左右。另一方面,即使数量庞大的英文数据在模型爆炸的今天也面临着即将被耗尽的问题。
有研究预计,互联网上可用的数据资源很有可能会被耗尽,其中高质量的语言数据大约在2026年耗尽,低质量语言数据大约在2050年耗尽,视觉图像数据也将在2060年耗尽。
因此,如何提高数据的利用效率成为一个重要的课题。
目前,AI大模型的理解能力主要来源于两个方面,即“预训练+参数微调”以及“预训练+提示学习”,这两个学习方式各有优劣。
其中“预训练+参数微调”会面临资源占用过多,过拟合问题严重,缺乏通用能力等问题。而提示学习也有单一的外部提示信号难以最大限度地激发预训练大模型的能力,从而高质量地完成具体任务的问题。
在这样的背景下,行业提出了从提示学习到指令学习的改变。
所谓指令学习,是指通过若干任务相关提示增强来监督数据,优化模型参数。即通过参数微调提升多任务执行效果,利用提示语出发模型执行特定任务。
其核心在于,它仍然像微调一样调整其中的参数来使大模型适应不同的任务,但调整完成之后的模型是一样的,所有的任务都可以对应一个模型。
有了这样的调整,对大模型的训练效率就会提升。
比如在Google的一个案例中,他们在62个数据集中的40个任务进行训练。但模型参数达到百亿规模之后,这几十个参数的联合指令学习却可以解决许多之前未训练的问题。
在这之前,大家普遍应用的是多任务学习,即学习一个任务解决一个任务,没有学习过的任务就没法解决。而在这之后,一些之前没有训练过的任务也能够被解决,即大模型的通用能力在增强。
但要实现这个问题,找到合适的指令就变得非常重要,毕竟不同的任务、不同的样本、用什么样的提示语才能获得更好结果是需要去尝试的。
这也是OpenAI选择免费开放ChatGPT的一个重要原因,因为它需要通过这种方式收集全球的问题指令,来完成大模型的进一步优化。
李彦宏也在文心一言发布会上提到,之所以选择在这个时候发布文心一言,除了许多业务和客户需要这项技术外,也因为文心一言本身需要通过用户使用来收集数据。