gtp-4意味着什么 gtp4到底是什么
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
AI的本质是什么?一切都是概率吗?
还有未知的涌现效应?
01
GPT-4来了,再次狂飚
中文世界的标题:
GPT-4震撼发布:多模态大模型,直接升级ChatGPT,开放API,游戏终结了?
以下是官方的说辞:
GPT-4可以接受图像和文本输入,而GPT-3.5只接受文本。
GPT-4在各种专业和学术基准上的表现达到 "人类水平"。它通过了模拟的律师考试,分数约为应试者的前10%。
GPT-3.5和GPT-4当任务的复杂性达到足够的阈值时,区别就出来了,GPT-4比GPT-3.5更可靠,更有创造力,能够处理更细微的指令。
GPT-4能对相对复杂的图像进行说明和解释,比如说,从插入iPhone的图片中识别出一个Lightning Cable适配器。
OpenAI承认,GPT-4并不完美,仍然会对事实验证的问题产生错乱感,也会犯一些推理错误,偶尔过度自信。
谷歌前两天已开始一波反击!开放大语言模型PaLM API。
斯坦福“Alpaca”火了:100美元就能比肩GPT-3.5!手机即可运行。
明天中文世界的百度的文心大模型,也将发布。
AI世界,狂飚突起,让人眼花t乱。
但不管世界如何变换,可以从原理上理解人工智能的本质。
02
AI本质:逆概率问题
所谓逆概率,就是与“正向概率”相反。
假设袋子里面有P只螃蟹,Q只蜘蛛,你伸手进去摸一把,摸到螃蟹的概率是多大,你是可以计算出来的。
但反过来看:“事先并不知道袋子里面螃蟹和蜘蛛的比例,闭着眼睛多摸几次,可以就此对袋子里面的螃蟹和蜘蛛的比例作出什么样的推测。”
这个问题就是逆向概率问题。
当你不能准确知悉某个事物本质时,你可以依靠经验去判断其本质属性的概率。
贝叶斯定理是18世纪英国数学家托马斯・贝叶斯提出的概率理论。
与其他统计学方法不同,贝叶斯方法建立在主观判断的基础上,逆概率,明显反科学,这也是它200多年来不为科学家们待见的原因。
1774年,法国数学家拉普拉斯也非常“不科学”地发现了贝叶斯公式,给出了我们现在所用的贝叶斯公式的表达:
该公式表示在B事件发生的条件下A事件发生的条件概率,等于A事件发生条件下B事件发生的条件概率乘以A事件的概率,再除以B事件发生的概率。公式中,P(A)也叫做先验概率,P(A/B)叫做后验概率。
虽然今天的AI有了长足的发展,但本质还是一个逆概率问题。
丢个骰子出去,猜一下是哪个点。
03
语音识别举例:贝叶斯定理
以语音识别为例,来理解一下逆概率。
统计机器翻译的问题可以描述为:给定一个句子e,它可能的外文翻译f中哪个是最靠谱的。即需要计算:P(f|e)。
P(f|e) ∝ P(f) * P(e|f)
这个式子的右端很容易解释:那些先验概率较高,并且更可能生成句子e的外文句子f将会胜出。只需简单统计就可以得出任意一个外文句子f的出现概率。然而 P(e|f)却不是那么好求的,给定一个候选的外文局子f,它生成(或对应)句子e的概率是多大?我们需要定义什么叫“对应”,这里需要用到一个分词对齐的平行语料库。
率先成功利用数学方法解决自然语言处理问题的是贾里尼克,他把语音识别简化为用贝叶斯处理的数学问题成功开辟了一条全新的问题解决路径。
随着大量数据输入模型进行迭代,随着计算能力的不断提高、大数据技术的发展,贝叶斯公式巨大的实用价值愈发体现出来。
语音识别只是贝叶斯公式运用的一个例子,逆概率思想早已渗透到AI的方方面面。
以下部分内容来自公众号“马丁的面包屑”,公众号【【微信】】前鹅广产品经理,前图灵机器人人才战略官/AI产品经理
04
传统AI:一个个的逆概率子集
ChatGPT出现之前,再聪明的AI,都可以让为是复合Agent组合起来支撑的。
复合Agent是什么意思呢?
即有若干个术业有专攻的代理人:
一个负责聊天对话的,
一个负责诗词生成的,
一个负责代码生成的,
一个负责写营销文案
每个Agent只擅长做自己的那部分事情,猜自己那部分的谜团。
在用户使用的过程中,系统会先判定用户的意图是什么,应该是哪个Agent,然后再将用户的命令分发给对应的agent去解决并提供答案。
因此看起来是很厉害的机器人,背后其实是若干个术业有专攻的机器人。
事实上Siri、小爱、小度,小冰甚至包括各个平台的客服机器人都是这种模式。
这样当你要上线一个新能力(例如写古诗),你只需要新增训练一个Agent,然后将这个Agent接入到总控的分类意图器下就行。
本质上不过是一个个的逆概率子集,你在做的只是训练出一个术业有专攻的机器人而已,离真正的人工智能十万八千里。
但ChatGPT的能力不再是这种模式了,
他所采用的模式是大语言模型+【【微信】】。
所有的能力通过一个模型实现,背后只有一个什么都会的机器人(即大语言模型),并支持用户借助文字下达命令(即【【微信】】,提示/指示)。
虽然这种能力的表现还不算完美,但是他开启了一条一种通向“通用型人工智能”的道路,也就是通向AGI的方向。
05
GPT的技术原理
还是与前面说的一样,NLP任务核心逻辑是一个“猜概率”的游戏。
比如说,“我今天被女朋友________”,
经过大量数据训练后,AI预测空格出会出现的最高概率词是“PUA”。
那么PUA就会被填到这个空格中,从而答案就产生了――
“我今天被女朋友PUA了”
他只是在玩文字游戏,进行一次又一次的概率解谜,本质上和我们玩报纸上的填字游戏是一个逻辑。
只是我们靠知识和智慧,AI靠概率计算。
而在目前的“猜概率”游戏环境下,基于大型语言模型(LLM,Large Language Model)演进出了最主流的两个方向,即Bert和GPT。
其中BERT是之前最流行的方向,几乎统治了所有NLP领域,并在自然语言理解类任务中发挥出色(例如文本分类,情感倾向判断等)。
而GPT方向则较为薄弱,最知名的玩家就是OpenAI了,事实上在GPT3.0发布前,GPT方向一直是弱于BERT的(GPT3.0是ChatGPT背后模型GPT3.5的前身)。
接下来我们详细说说BERT和GPT两者之间的差别。
BERT
双向 预训练语言模型+fine-tuning(微调)
GPT
自回归 预训练语言模型+【【微信】】(指示/提示)
每个字都认识,连到一起就不认识了是吗哈哈。
没关系,接下来我们把这些术语逐个拆解一遍就懂了:
01
预训练语言模型
我们通常认知里的AI,是针对具体任务进行训练。
例如一个能分辨猫品种的Agent,需要你提供A-缅因猫,B-豹猫这样的数据集给他,让它学习不同品种之间的特征差异,从而学会分辨猫品种这项能力。
但大语言模型不是这样运作的,他是通过一个大一统模型先来认识这个世界。再带着对这个世界的认知对具体领域进行降维打击。
在这里让我们先从NLP领域的中间任务说起。像中文分词,词性标注,NER,句法分析等NLP任务。
他们本身无法直接应用,不产生用户价值,但这些任务又是NLP所依赖的,所以称之为中间任务。
在以前,这些中间任务都是NLP领域必不可少的。
但是随着大型语言模型的出现,这些中间任务事实上已经逐步消亡。
而大型语言模型其实就是标题中的“语言预训练模型”。
他的实现方式是将海量的文本语料,直接喂给模型进行学习,在这其中模型对词性、句法的学习自然而然会沉淀在模型的参数当中。
我们看到媒体对ChatGPT铺天盖地的宣传里总是离不开这样一句话――
在拥有3000亿单词的语料基础上预训练出的拥有1750亿参数的模型。
这里面3000亿单词就是训练数据。而1750亿参数就是沉淀下来的AI对这个世界的理解。
其中一部分沉淀了Agent对各类语法、句法的学习
(例如应该是两个馒头,而不是二个馒头,这也是中间任务为什么消亡的原因)。
而另外一部分参数参数则储存了AI对于事实的认知
(例如美国总统是拜登)。
经过预训练出一个这样的大语言模型后,AI理解了人类对语言的使用技巧(句法、语法、词性等),也理解了各种事实知识。
甚至还懂得了代码编程,并最终在这样的一个大语言模型的基础上,直接降维作用于垂直领域的应用。
(例如闲聊对话,代码生成,文章生成等)。
而BERT和GPT两者都是基于大语言模型的,他们在这一点上是相同的。
他们的不同在于双向/自回归、fine-tuning/【【微信】】这两个维度,我们接下来会重点弄明白这四个术语。
02
双向 VS 自回归
BERT:双向。
双向是指这个模型在“猜概率的时候”,他是两个方向的信息利用起来同时猜测。
例如“我____20号回家”,他在预测的时候,是同时利用“我”+“20号回家”两端的信息来预测空格中的词可能为“打算”。
有点像我们做英文的完形填空,通常都是结合空格两端的信息来猜测空格内应该是哪个单词。
GPT:自回归。
自回归就是猜概率的时候从左往右做预测,不会利用文本中右侧的内容,和BERT相反。
这就有点像我们写作文的时候,我们肯定是一边写一边想。
两者基本理念的区别导致BERT在之前更擅长自然语言理解类任务,而GPT更擅长自然语言生成类任务(例如聊天、写作文)。
――注意,我说的是之前,后面的章节我会介绍现在的情况发生了什么变化。
03
fine-tuning 【【微信】】
假设现在预训练好的大模型要针对具体领域工作了,他被安排成为一名道德观察员,要分辨文章到底有没有写黄色小段子。
那么BERT和GPT的区别在哪里呢?
BERT:fine-tuning(微调)。
微调是指模型要做某个专业领域任务时,需要收集相关的专业领域数据,做模型的小幅调整,更新相关参数。
例如,我收集一大堆标注数据,A-是黄色,B-没有搞黄色,然后喂给模型进行训练,调整他的参数。
经过一段时间针对性学习后,模型分辨搞黄色的能力更出色了。
这就是fine-tuning,二次学习微调。
GPT:【【微信】】。
prompt是指当模型要做某个专业领域的任务时,我提供给他一些示例、或者引导。但不用更新模型参数,AI只是看看。
例如,我提供给AI模型10张*,告诉他这些是搞黄色的。
模型看一下,效果就提升了。大家可能会说,这不就是fine-tuning吗?不是一样要额外给一些标注数据吗?
两者最大的区别就是:这种模式下,模型的参数不会做任何变化升级,这些数据就好像仅仅是给AI看了一眼――嘿,兄弟,参考下这个,但是别往心里去。
不可思议吧,但他成功了!
而更令人疯狂的是,到目前为止,关于prompt明明没有对参数产生任何影响,但确实又明显提升了任务的效果,还是一个未解之谜。暂时而言大家就像程序员对待bug一样――
I don't know why , but it work lol .
这种【【微信】】其实就是ICT(in-Context Learning),或者你也可以称为Few shot Promot,用大白话说就是“给你一点小提示”。
同时还有另外一种Promot,称之为Zero shot Promot。
ChatGPT就是Zero shot promot模式,目前一般称之为instruct了。
这种模式下用户直接用人类的语言下达命令,
例如“给我写首诗”,“给我做个请教条”。
但是你可以在命令的过程中用一些人类语言增强AI的效果。
例如“在输出答案之前,你给我认真一点,否则我揍你”。
就只是增加这样一句话,AI的答案效果就会明显提升。
你可能会问这是什么魔法咒语?!
有一个比较靠谱的猜测是这句话可能让AI回想起了学习的资料中那些推理知识好像前面都会有这句话。
然后这一切莫名激活起了他过去的记忆,不自觉开始仿造那些严密的推理过程中一步步推导。
综上对比下来,你会发现好像GPT这种模式比起BERT模式更符合我们对人工智能的想象:
通过海量的知识成长起来,然后经过稍微引导(【【微信】】),他就能具备不同领域的强大能力
最后总结一下,
ChatGPT背后的GPT模型是什么?
在一个超大语料基础上预训练出的大语言模型(LLM),采用从左到右进行填字概率预测的自回归语言模型,并基于prompting(提示)来适应不同领域的任务。
如果只基于上面的描述,你可能大概弄懂了他背后的原理,但是对于为什么他这么牛逼,你仍然无法理解。
没关系,我们接着进入第二部分。
06
GPT牛逼在哪里
他可能是AGI通用型人工智能的开始
在我们原始的幻想里,AI是基于对海量数据的学习,锻炼出一个无所不知无所不能的模型,并借助计算机的优势(计算速度、并发可能)等碾压人类。
但我们目前的AI,不管是AlphaGo还是图像识别算法,本质上都是服务于专业领域的技术工人。
我们心目中的机器人,无所不能
而GPT目前看似只能解决自然生成领域的任务,但实际上,他展现出了通用型人工智能的潜力。
在前面我们提到,目前而言,BERT擅长自然语言理解类任务(完形填空),GPT擅长自然语言生成类任务(写作文)。
但在Google的FLAN-T5模型上已经实现了两类任务在输入输出形式上的统一,从而使得用GPT来做完形填空成为可能。也就是可以用一个大模型来解决所有NLP领域的问题。
那么再进一步地,
是否GPT可以从NLP领域走向其他AI领域呢?
当然有可能!在去年年中爆火的AI绘画,其中一个关键技术门槛其实就是Text-图像的转化,这同样是来自OpenAI所开源的CLIP模型实现。
因此GPT在图像领域的能力同样也令人期待。同理在多模态如音频、视频,本质上也能转化为Text-e【【微信】】的问题去求解,从而让大语言模型发挥成吨的威力。
当然你可能会问,
那么只要大语言模型就可以呀,
为什么是GPT,而不是BERT呢?
1
Promot模式相较fine-tuning更具生命力
事实上,BERT的fine-tuning模式有两个痛点。
1.我需要准备某个专业领域的标注数据,这个数据还不能少,如果太少,AI模型训练后就会形成过拟合
(就是AI直接背下了整本习题册,册里的问题100%正确回答,但是稍微变幻题型就GG)
2.我需要部署大语言模型,才能对他进行进行微调,那么部署大语言模型的成本,甚至进一步对他进行微调的能力,并不是所有公司都具备的。这注定是一个只有少数玩家能参与的游戏。
而Promot模式恰恰相反,不需要太多的数据量,不需要对模型参数进行改动(也就意味着可以不部署模型,而是接入公开的大语言模型服务)。
那么他的调试就会呈现百花齐放的姿态,玩家越多,创造力涌现就越猛烈。
2
全新的人机交互方式
这里的人机交互,指的是人-模型之间的交互。
目前ChatGPT采用的是模型侧的Few shot prompt,即给一点示例提示,让AI提升表现。
虽然暂时未知为什么不更新模型仅仅只是给AI看一眼就能带来巨幅提升,但这种交互模式无疑是更友好的。
而更具颠覆性的是输入端的Zero shotprompt,
即我们用人类的语言逐步引导AI思考――比如我们可以说,你仔细想好步骤,再给出答案。
就仅仅是多加一句“你仔细想好步骤”,AI的答案靠谱率就会明显提升。
而这种交互方式的演变,就是我们梦想中的人机交互模式。
我不需要专业的能力,不需要高端的设备,我就是开口,说出我的诉求,AI就能够理解并帮我实现。
3
GPT开始尝试讨好人类,并成功了
在12月的媒体通稿里,一大堆对ChatGPT的溢美集中于他的“仿真性”,仿佛通过了图灵测试一般。
而这种仿真性,直观来说,我们会认为是AI的“智力”提升了,他更聪明了。
但实际上,ChatGPT背后的GPT3.5,更多的提升在于“用人类所喜欢的方式回答”。
事实上ChatGPT背后的GPT3.5的模型,相较GPT3.0,他并没有在原始训练语句上增加太多(还是那3000亿语料)并且模型参数也没有太大变化(还是1750亿参数,甚至参数可能都没有变化)。
之所以他会让人产生质变的感
ait绘画 chatgpt 地表最强ai模型
读特客户端・深圳新闻网2023年3月14日讯(深圳商报记者 涂竞玉)记者对ChatGPT说:“请生成一张机器人图片。”话音刚落,图片立刻生成。这就是由MSRA资深研究人员提出的视觉版ChatGPT(【【微信】】),同时,它也看得懂图,有理解能力。
OpenAI 重磅推出的聊天对话模型ChatGPT,短短几个月席卷社会各个领域。ChatGPT会的东西五花八门,现如今,【【微信】】将ChatGPT和一系列可视化基础模型连接起来,以支持在聊天过程中发送和接收图像。
从头训练一个多模态模型,工作量非常大。于是,研究人员想到可以在ChatGPT的基础上,结合一些视觉模型来达到目的。而想要达到这一目的,需要一个中间站,由此他们提出了提示管理器的概念。相关报道称,提示管理器可以明确告诉ChatGPT每个视觉模型的作用,并指定好输入输出格式;转换不同的视觉信息,如将PNG图像、深度图像、掩码矩阵等转换为语言格式,方便ChatGPT理解。它能处理视觉模型的历史生成结果,以及不同模型的调用优先级、规避冲突等,让ChatGPT能够以迭代的方式接收视觉模型的生成内容,直到输出用户满意的结果。
与此同时,研究人员也提到了这项工作目前还存在一些局限性:生成结果的质量,主要取决于视觉模型的性能;使用大量的提示工程,会一定程度上影响生成结果的速度;此外,在输入图片的隐私安全上,还需要做进一步升级保护。返回搜狐,查看更多
责任编辑: