关于chatGPT爆火,张宏江这篇分享讲透了,大模型正成为AI浪潮的重要拐点|钛媒体T
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
2022年12月22-23日,2022T-EDGE全球创新大会暨钛媒体十年致敬盛典在中国北京举办,本次大会主题为“十年致敬・生态重塑”,邀请全球创新领袖一起复盘过去十年产业变革的跌宕起伏,展望下一个十年经济发展的核心动能。
12月22日,美国国家工程院外籍院士、北京智源人工智能研究院理事张宏江在钛媒体2022T-EDGE大会上发表了《ChatGPT和AIGC爆火背后,Al 大模型的发展和机遇》的主题演讲。
张宏江在演讲中表示,ChatGPT和AIGC(生成式人工智能)技术爆火背后,代表着人工智能(AI)大模型进入一个新的技术范式,同时也是第三波 AI 浪潮经过十几年发展之后一个非常重要的拐点。
据悉,早在1956年夏天,计算机科学家约翰・麦卡锡(John McCarthy)等人在具有传奇色彩的“达特茅斯会议”上创造“人工智能”这个术语,被认为标志着 AI 的正式诞生。在之后半个世纪当中,计算机技术飞速进步,AI 也影响着全世界的技术变革与发展。
全球共经历了三次 AI 浪潮。相对于前两次浪潮由于数据量不够、算法不强、商业化不如预期等因素,让所有人期盼的十年“AI 效应”看法泡沫破灭。如今第三次 AI 浪潮,AI 算法、算力、数据“三驾马车”同步突破,尤其是如今的 AI 大模型带来的发展机会和机遇。
此次演讲中,张宏江围绕基于GPT-3技术的ChatGPT、AIGC的前沿趋势、技术应用,从而详细阐述 AI 大模型的产业发展机会与机遇。
首先,OpenAI 开发的GPT-3技术,基于Transformer预训练语言模型架构、深度学习网络架构发展进步,向我们展示了从算法到工程上的一系列突破,是工程化能力的典型代表。
从对话式文本问答平台ChatGPT模型来看,基于WebGPT和InstructGPT的技术研究突破,ChatGPT让我们对于人机对话有了一个完全性理解,既能作文,又能考试,还能写程序,而且能够拥有持续对话的能力。
从 AIGC 技术来看,从OpenAI 2021年1月发布的DALL・E 1.0开始,按照一段文字、个人风格,通过 AI 大模型生成图像的方法风靡全球,代表了当前文图生成的最新算法,实现了 AI 技术的新突破。最近几个月出现的Stable Diffusion是目前最好的技术。
在国内,北京智源人工智能研究院于今年11月开发了AltDiffusion,以及开源文生图系统FlagStudio等,将生成式模型进行了本地化,以及用文字+图片形式产生新图片的创新方案,从而实现技术进步。
“它其实代表着从以前‘大炼模型’(各自研发专用小模型),到‘炼大模型’(研发超大规模通用智能模型)的一个范式转变。这个转变有很重要的意义:通过这种比较先进的算法架构,尽量整个可能多的数据,汇集大量算力,集约化的训练达模式,从而供大量用户使用。”张宏江表示,大模型的发展很可能会改变信息产业的格局,改变以前作坊式 AI 开发模式,把 AI 应用带入基于互联网、云计算的大规模智能云阶段。
张宏江在总结中称,尽管过去几年 AI 技术行业碰到了一些技术瓶颈和商业化难题,但这种状况会随着大模型的发展和普及,尤其是通过大模型+微调的新技术开发范式,将能够使人工智能的能力,更好、更有效的应用到各个场景里面,从而大大降低开发成本。
张宏江强调,由于ChatGPT、AIGC等AI大模型技术不断成熟,未来会带来新的创业机会,包括更好的对话机器人、更好的机器翻译,更好的创作平台。
“大模型是一个快速发展、快速引爆市场的机会型技术,将会带来新一波创业热潮,无论是我们今天已经看到的应用,还是未来会看到的应用,都将会有非常大的潜力。”张宏江在演讲的最后这样表示。
各位嘉宾,各位钛媒体的朋友,大家早上好。我是智源人工智能研究院理事长 张宏江。
最近,大模型开始从学术界“烧”到了产业界,现在又“烧”到了大众媒体,尤其是人工智能生成模型(AIGC)的热度还没有褪去,然后ChatGPT的热又一波接着一波。
那么,最近人工智能到底发生了什么大的变化?这背后的原因是什么?这些技术能够用来做什么?又将为我们的生活和工作带来什么?为中国的产业带来什么?我在这里结合智源人工智能研究院的一些工作,和大家分享一下我的理解和看法,尤其是针对ChatGPT和AIGC带来 AI 大模型的发展机会和机遇。
过去这两年,技术大模型已经成为人工智能快速发展的关键技术,各大企业和高校、各个研究机构在这个领域上都进行了布局和发力,各个领域的模型层出不穷。所以,大模型的研究和应用也将会逐步成为人工智能发展的一个关键方向,从而形成了新一波人工智能浪潮。尤其在应用领域,我相信会形成一个非常持久的浪潮。
自GPT-3于2020年5月份发布开始,智源“悟道”在不到一年后的2021年6月发布,是当时世界上最大的1.7万亿模型。随后的一年多来,我们看到有更多的大模型研究出来。尤其是DALL・E模型和ChatGPT模型,来宣告“大模型”进入了一个新的高地。
从各个研究机构发布的技术模型数量来看,“大模型”数量在持续增加,而且模型规模也越来越大,这背后其实有它非常深远的技术和学术背景。
首先,从基础技术角度看预训练大模型的发展,回顾一下它的技术积累。
其实在15年前,深度学习逐步快速发展的时候,当时我们实际上处于一个探索的阶段,因为构建深度学习的主要方式就是监督学习,这中间需要大量的人工标注的数据。而数据的生产周期长,而且也非常昂贵。那么,如何能够通过有限的人工标注,在特定的任务上构建更有效的神经网络,或是自动产生大量的数据,这其实是我们一直在研究的问题。
随着深度学习技术发展,在大概七八年前,就出现了迁移学习技术,就是从过去学习的知识上不用再开始训练,如果用新的数据加上去之后,再将已经捕获的知识迁移到一个新的目标或新的应用上去。这两块是我们今天大模型非常重要的技术基础――传统的“监督学习”逐步变成“强化学习”。
另外,我们往往会忽略掉,人们认为,“大模型”的快速发展主要原因是学术发展比较快。但实际上,不止是学术发展,更重要的是“大模型”通过标注好的数据进行学习。这其实是过去几年非常大的变化。另两个很大的变化是:算法、算力的要求上。
所以我们说,深度学习主要有三个因素:数据、算法和算力。
算法的进展我就不多讲。但数据的进展在过去十几年里是非常快速的――从一个最开始的人工标注,到开放的数据集分享,再到数据自动标注和生成式研究。而技术进展到了最近五年,我们开始把数据变成了“云服务”,从而建立起了数据标注、处理、存储管理一体的云数据中心。这对于人工智能的发展具有非常重要的推动作用。
另外一方面,我们从一开始推动 AI 专用芯片,比如英伟达的GPU(图形处理器),到后来推动大规模分布式计算环境,再到我们今天已经有的大规模、高性能 AI 算力中心。这两块一个是数据,一个是专利,这中间是不可缺少的。而且,今天在整个过程中间,我们意识到另外一点,就是以前认为的基于深度学习的人工智能技术的基础研究,取得了一些算法的突破。
更重要的是,“大模型”到了现在这个阶段,工程化能力是非常重要的,尤其是GPT-3,向我们展示了从算法到工程上的一系列突破。
GPT-3大模型是(工程化能力)典型代表。从算法架构来看,它是建立在神经网络架构Transformer基础之上的。它克服了传统的神经网络技术用浅层的预训练网络来捕捉单词,并无法解决一词多义等问题缺陷,而是优化了类人脑的一个学习过程。它在学习过程中间关注于重点而非全部,从而使得它的学习效率非常高。
随着模型规模的变化,基于Transformer预训练语言模型架构――这种隐含的丰富语言知识,从而使得它能够在众多下游NLP任务中间有惊人的表现。在此之前,谷歌的BERT就是建立在Transformer基础上的,而OpenAI 的 GPT这一类模型也都是建立在这基础之上的。所以,Transformer是这里面(GPT-3)的核心所在,而且是近三年我们看到大模型发展最核心的深度学习架构。
那么,GPT-3的出现有几个里程碑式的意义:一是凸显了Transformer生成式模型的学习能力;二是1750亿模型规模非常大,其模型在小样本和0样本中的学习中间表现出了突出性能;三是GPT设计理念像语言学习(Language Learning)这种概念,也就是学习过程关注重点而非全部,有效利用数据进行核心学习,而非此前那种利用标注数据进行的深度学习过程。
事实上,今天GPT-3的学习过程的数据要求非常大,1750亿参数量,约有700G大小,一次训练成本大致花1200万美金。所以,大模型的发展不光是算法上的进步,在数据、算力上的要求也非常巨大。而大模型中有GPT-3这一类模型的话,核心优势是利用这种模型进行微调就可以用了,用来做一些新的任务,这是以前模型所不具备的。
接下来,我们看一下 GPT-3在语言能力上的突破。
无论是最早的英文GLUE Benchmark,还是后来的写作,它都有了非常好的突破。因为这种大模型里面隐含大量支持,对这些知识支持模型进行一些推理层面的任务,并得到了非常好的效果。比如,中文写一篇关于个性化搜索未来发展趋势的论文,或1801年的美国总统是谁等,它从中间学会后记忆,并用在未来场景里面。
另外,GPT-3在中文的文言文理解能力也让人惊叹。这段来自于孟子的文言文是北京市小升初的题目,而GPT-3能够非常好的理解它。
GPT-3发布之后,OpenAI 发布ChatGPT,简直就是让我们对于人机对话有了一个完全性理解。实际上,ChatGPT就是为对话而优化、在GPT-3基础上优化的一个大语言模型,它在写故事、写代码,甚至参加SAT考试,都比GPT-3有非常大的进步。值得注意的是,它在SAT试题的回答是练习10次之后的水平,最终在数学满分800分中达到600分,写作满分800分中拿到520分,相当了不起。
所以,马斯克惊呼ChatGPT好的吓人,他甚至预测危险的强 AI 离我们不远了。实际上,ChatGPT确实在对话方面达到了一个新的高端,完全可以以假乱真,至少是记忆和学习能力超强的“超级鹦鹉”。
那么,ChatGPT为什么能够有这样的能力?
我们知道,GPT-3已经是针对于语言的大模型。而OpenAI又在其基础上做了两个方向的研究:一是WebGPT,搭建基于文字的页面浏览环境,教GPT-3上网查询,再生成结果的同时生成引用来源,相对GPT-3大幅提升生成内容信息量和事实性;二是InstructGPT,基于用户反馈的强化学习RLHF,将语言模型的输出与用户的意图非常好的align(对齐/相关)起来。这是InstructGPT的核心所在。
ChatGPT恰恰是建立在InstructGPT基础之上的。之前深度学习,包括最早出现CNN/RNN到Transformer的框架,然后才出现GPT。回过来看,其实还是Transformer的出现,使我们今天在深度学习网络架构上有了新的突破。
ChatGPT既能作文,又能考试,还能写程序。它的核心特点在于其持续对话能力,能够记住历史信息和人的反馈,保持对话的一致性,容许用户提供后续更正。他会意识到而且会挑战你,做到了“知之为知之,不知为不知,是知也”,它也承认错误后进一步改进。而且其核心能力在于持续的迭代,大幅度提高用户意图理解和结果准确性,这就是InstructGPT特点与能力。
当然,ChatGPT也有一些局限性,可能产生不正确的信息,也可能产生一些有害指令或是偏见内容,而且它的训练数据大部分是2021年以前的,所以过去6个月发生的事情它了解很有限,我觉得这些其实很正常。
接着,我们来聊聊AIGC(生成式人工智能)模型――按照一段文字、个人风格来生成图像。
这一技术早在2021年1月(一年多),OpenAI 发布 DALL・E 1.0开始的,它核心就是不断学习文字和图像之间的匹配关系。自从DALL・E出现之后,又有一系列模型出现,最近几个月出现的Stable Diffusion是目前最好的技术。
智源研究院在这个基础上做了一些改善,于2022年11月公布中文模型AltDiffusion,效果比Stable的标准要更好。
无论是Stable,还是其他一些文字生成图像模型,原理都是通过图片离散编码,然后将图像的Token和文字的Token作为Transformer decoder进行输入,然后将大量图片与文字对上。而一开始,DALL・E产生的图像还是相对来说比较简单,那么在此基础上,Stable就把它的能力提高一大截。
需要提及的是,DALL・E是以皮克斯的WALL-E 和西班牙超现实主义画家萨尔瓦多・达利(Salvador Dalí)的名字命名。
下面,我用智源的多语言生成模型AltDiffusion,来说一下Stable Diffusion以及我们AltDiffusion最近的一些工作。
开源的Stable Diffusion近几个月出现之后,风靡了整个圈子,实际上代表了当前智能文图生成的最新算法。它用AItCLIP替换了Stable Diffusion中的文本塔,使得模型可以支持多种语言,并在多语言图文对数据集上进一步训练。
实际上,这个不是靠人来做,而是靠机器来做,本身说话是一个很重要的技术。原理上,我们AltDiffusion对它进行了一些改善,所以它对于中文的理解就会更好,比如把中文的画风也引进来。同时,它还支持除了中文以外的其他九种语言,包括法语、韩语、西班牙语、俄语、意大利语、阿拉伯语等。而且,不只有这些语料,很重要的是它在模型里面做了一些改善。
当然,它也有一些很有意思的现象,就是对于不同语言、同样内容的模型输入,会有很大差异,其实中间也反映出了文化差异。那么,我们的模型能够适应于这一点,本身也是一个很好的技术问题。
好,这里我给大家看一下智源研究院的开源文生图系统FlagStudio。你注意看界面的话,可以选择绘画风格,以及艺术家风格,根据某个艺术家来定义画风,比如这块选择的是虚拟引擎,画出来虚幻图片,用文字来描述你想要什么解答。另外就是用一个文字离开描述,比如一篮子苹果它给你生成一个苹果,如果描述改成梨就是能生成对应风格,产生新的图像。而且,不光是用文字来产生图片,而且用文字+图片形式可以产生新的图片,这是该模型能够做的、也是现在生成式模型的一个很大进步。
团队用我的照片来做实验,然后做了一个开源的系统,通过我不同时期的6幅照片,根据不同风格要求,产生新的图像,风格也多变,有的就比较年轻帅气,有的就形象老态等。
我在前面很快介绍了大模型的发展,尤其是ChatGPT和AIGC技术的发展和其具备的能力。那么,下面我花几分钟时间来谈一下这些大模型,对于产业的影响在哪里?
chatgpt可以用来分析股票吗 国产chatgpt详细的安装教程
chatgpt怎么下载,chatgpt国内能用吗,chatgpt中文,chatgpt怎么用关于对ChatGPT的观点和分析:最近一周行业非常热,就谈到ChatGPT这个东西,ChatGPT是AI开源组织开发的一个聊天的机器人,是马斯克等投资的一个开源的人工智能组织,它的目的是让人工智能技术不单单是在几个大的企业里面,就像微软、谷歌这些企业,让更多的人能够运用,然后这次ChatGPT和过去的聊天对话机器人有很大的不同,过去的聊天机器人基本上只能做一个非常简单的一问一答的这种问答的形式,基本上问几轮之后逻辑就紊乱了。我们这次也用了一下,觉得比较有意思的地方是几点:其实他做的事情和分析员有点像,他就可以做一个简单来讲小作文就是我们输入几个关键词和问题,然后它可以生成一个几百字的小作文,然后小作文基本上读上去,没有非常强的逻辑和观点,但是它会有非常好的逻辑的自洽,然后比方说我们写了几个文章,比方说以徐志摩的口吻写一封感谢信,比方说分析一下今年世界杯谁会夺冠,为什么巴西会夺冠,然后他会给你一个三四百字的文章而写的蛮好的。然后还有一个就过去的聊天机器人很大的一个问题,就是说问下去之后问几个他的逻辑就乱掉了,他现在而且他有些问题你盯着他问他会前后不一致,但这次它是根据你的上下文它做得很好,然后同时它能够生成一些比方说写程序的人的话,可以用它生成一些简单的代码,然后用户可以根据他来改,这个其实在科技行业里面引起了非常大的,这是非常接近通用人工智能的一部重要的里程。我们觉得对很多处理文字的,比方说对记者对分析员,对于很多处理文字的行业其实会有很大的影响,有可能他的东西不能直接用,但是它生成的东西你改一下,基本上很多时候可以用,然后讲一下背后它发生什么事情,以及怎么和投资相关的,那就说人工智能是16年阿尔法狗打败李世石以后,他其实那时候是相对来说比较简单的一个模型,然后过去几年的模型我们叫大模型化的趋势非常明显,18年的叫GPT的第一代大概是用1.11个数据来喂的,最新的一代是GDP3大致用1750亿个数据来喂出来的一个模型,它背后需要的成本数据卡和成本非常多。据开源组织来统计,比方说现在讲的就是英伟达的A1版的信用卡需要100张卡训练三个月,而训练成本要接近,就训练一次的模型的成本要1,200万美金,这什么概念?就是说半导体的流片,比方说我们留一个14纳米的片,大概是3000万到4000万美金,就是你训练一次叫1200万美金投下去才能训练出这样的一个大模型,但同时这样的模型能够做很多的我们叫multi purpose,不是简单的问答,比方说它同样一个模型,它可以去做图像的处理,可以做文字的分析,就有一点是接近人脑的一些功能,这是背后的一个东西。从投资角度来讲是有三层:第一层是芯片,芯片目前来看就是说大模型需要几千张的卡,而且要跑很长的时间来做,所以说基本上一张卡现在几万美金一张,所以说你可以想象到几千张卡投下去的话,几千万美金的就要投下去,这个是一个很大的资本开支的投资,这个基本上现在是大的互联网公司和有国家支持的机构在做,美国来讲主要是在 Google和Microsoft的,然后AI做得不错,中国来讲现在是百度,然后阿里,然后商汤都是有很大模型的能力在发展,芯片是目前来看是英伟达是一家的垄断,中国有几家初创企业在做。上市公司里面,寒武纪做的还可以,但是离美国企业差距还蛮大。第二层是做大模型的企业,现在来看人工智能变成一个和大企业越来越大的情况。中国来美国来讲主要是在 Google和Microsoft,然后AI做得不错,中国来讲行卡和成本非常多,据开源组织来统计,比方说现在讲的就是英伟达的a一版的信用卡需要100张卡训练三个月,而训练成本要接近,就训练一次的模型的成本要1,200万美金,什么概念?就是说半导体的流片,比方说我们这投资,这个基本上现在是大的互联网公司和有国家支持的机构在做,企业在做,上市公司里面是含5g做的还可以,但是离美国企业差距还蛮大。第二层是做大模型的企业,现在来看人工智能变成一个大企业的情况,大企业有能力有资金做的企业才能做起来,现在来看中国就是那几家。第三层是应用层有可能呈现一个百花齐放的形式,同时数据的重要性非常重要,包括华泰做上市的海天二生,这些解决数据的1000多亿的数据,其实是一个非常重要的数据量喂出来这个行业。我觉得这是一个非常颠覆性的人工智能,从16年起来很热,然后最近几年只能做人脸,然后慢慢的淡下去,就在ChatGPT看来在文字处理方面有一个很大的突破,建议大家关注。
关于对ChatGPT的观点和分析:最近一周行业非常热,就谈到ChatGPT这个东西,ChatGPT是AI开源组织开发的一...
关于,对于,对,关于对称的手抄报,关于对新型冠状病毒感染实施乙类乙管,关于对联的知识简介30字关于对ChatGPT的观点和分析:最近一周行业非常热,就谈到ChatGPT这个东西,ChatGPT是AI开源组织开发的一个聊天的机器人,是马斯克等投资的一个开源的人工智能组织,它的目的是让人工智能技术不单单是在几个大的企业里面,就像微软、谷歌这些企业,让更多的人能够运用,然后这次ChatGPT和过去的聊天对话机器人有很大的不同,过去的聊天机器人基本上只能做一个非常简单的一问一答的这种问答的形式,基本上问几轮之后逻辑就紊乱了。我们这次也用了一下,觉得比较有意思的地方是几点:其实他做的事情和分析员有点像,他就可以做一个简单来讲小作文就是我们输入几个关键词和问题,然后它可以生成一个几百字的小作文,然后小作文基本上读上去,没有非常强的逻辑和观点,但是它会有非常好的逻辑的自洽,然后比方说我们写了几个文章,比方说以徐志摩的口吻写一封感谢信,比方说分析一下今年世界杯谁会夺冠,为什么巴西会夺冠,然后他会给你一个三四百字的文章而写的蛮好的。然后还有一个就过去的聊天机器人很大的一个问题,就是说问下去之后问几个他的逻辑就乱掉了,他现在而且他有些问题你盯着他问他会前后不一致,但这次它是根据你的上下文它做得很好,然后同时它能够生成一些比方说写程序的人的话,可以用它生成一些简单的代码,然后用户可以根据他来改,这个其实在科技行业里面引起了非常大的,这是非常接近通用人工智能的一部重要的里程。我们觉得对很多处理文字的,比方说对记者对分析员,对于很多处理文字的行业其实会有很大的影响,有可能他的东西不能直接用,但是它生成的东西你改一下,基本上很多时候可以用,然后讲一下背后它发生什么事情,以及怎么和投资相关的,那就说人工智能是16年阿尔法狗打败李世石以后,他其实那时候是相对来说比较简单的一个模型,然后过去几年的模型我们叫大模型化的趋势非常明显,18年的叫GPT的第一代大概是用1.11个数据来喂的,最新的一代是GDP3大致用1750亿个数据来喂出来的一个模型,它背后需要的成本数据卡和成本非常多。据开源组织来统计,比方说现在讲的就是英伟达的A1版的信用卡需要100张卡训练三个月,而训练成本要接近,就训练一次的模型的成本要1,200万美金,这什么概念?就是说半导体的流片,比方说我们留一个14纳米的片,大概是3000万到4000万美金,就是你训练一次叫1200万美金投下去才能训练出这样的一个大模型,但同时这样的模型能够做很多的我们叫multi purpose,不是简单的问答,比方说它同样一个模型,它可以去做图像的处理,可以做文字的分析,就有一点是接近人脑的一些功能,这是背后的一个东西。从投资角度来讲是有三层:第一层是芯片,芯片目前来看就是说大模型需要几千张的卡,而且要跑很长的时间来做,所以说基本上一张卡现在几万美金一张,所以说你可以想象到几千张卡投下去的话,几千万美金的就要投下去,这个是一个很大的资本开支的投资,这个基本上现在是大的互联网公司和有国家支持的机构在做,美国来讲主要是在 Google和Microsoft的,然后AI做得不错,中国来讲现在是百度,然后阿里,然后商汤都是有很大模型的能力在发展,芯片是目前来看是英伟达是一家的垄断,中国有几家初创企业在做。上市公司里面,寒武纪做的还可以,但是离美国企业差距还蛮大。第二层是做大模型的企业,现在来看人工智能变成一个和大企业越来越大的情况。中国来美国来讲主要是在 Google和Microsoft,然后AI做得不错,中国来讲行卡和成本非常多,据开源组织来统计,比方说现在讲的就是英伟达的a一版的信用卡需要100张卡训练三个月,而训练成本要接近,就训练一次的模型的成本要1,200万美金,什么概念?就是说半导体的流片,比方说我们这投资,这个基本上现在是大的互联网公司和有国家支持的机构在做,企业在做,上市公司里面是含5g做的还可以,但是离美国企业差距还蛮大。第二层是做大模型的企业,现在来看人工智能变成一个大企业的情况,大企业有能力有资金做的企业才能做起来,现在来看中国就是那几家。第三层是应用层有可能呈现一个百花齐放的形式,同时数据的重要性非常重要,包括华泰做上市的海天二生,这些解决数据的1000多亿的数据,其实是一个非常重要的数据量喂出来这个行业。我觉得这是一个非常颠覆性的人工智能,从16年起来很热,然后最近几年只能做人脸,然后慢慢的淡下去,就在ChatGPT看来在文字处理方面有一个很大的突破,建议大家关注。