ChatGPT可以生成公式吗 ChatGPT 数学模型
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
关注“FightingCV”公众号
回复“AI”即可获得超100G人工智能的教程
点击进入→FightingCV交流群
【【微信】】 推出的 ChatGPT 到底是不是 1750 亿参数的等价大模型呢?这篇文章或许能带给你答案。
ChatGPT 的火热持续到了今天,围绕它的爆点新闻和技术解读不断涌现。关于其参数量,有一种普遍的假设认为,ChatGPT 的参数量与 GPT-3 论文中介绍的 1750 亿参数模型相同。但是,深耕于大语言模型领域工作的人很清楚这不是真的。通过对 A100 GPU 的内存带宽分析,就会发现 ChatGPT API 的实际推理速度要比 1750 亿 Dense e【【微信】】 模型的最大理论推理速度快很多。
本文将使用反证法来证明并支持上面的论点,只需要使用大学里学到的一些理论知识。另外需要注意,还存在相反的问题,即有人声称 ChatGPT 只有 X 亿个参数(X 远远低于 1750 )。但是,这些说法无法得到验证,因为说这些话的人通常是道听途说。
接下来是详细的论证过程。
反证法
先假设 ChatGPT 模型有 1750 亿个参数,通常用 INT8 格式来存储 LLM 权重,以便进行更低延迟的推理、更高的吞吐量和更低的内存需求(比用 float16 格式来存储要少两倍的内存)。每个 INT8 参数需要 1 个字节进行存储。简单的计算就知道,模型需要 175GB 的存储空间。
图片出自 INT8 SmoothQuant 论文,地址:
就推理而言,GPT 风格的语言模型在每次前向传递时都是「自回归」的,它预测下一个最可能的 token(对于类似 ChatGPT 的 RLHF 模型,它会预测其人类标注者更偏好的下一个 token)。这意味着要生成 200 个 token,因此需要执行 200 个前向传递。对于每个前向传递,我们需要将模型的所有权重从高带宽(HBM)内存加载到矩阵计算单元(GPU 的张量计算核)中, 也就是说需要为每个前向传递加载 175GB 的权重。
在微软 Azure 平台上,一个节点上可以分配 A100 的最大数量是 8。这意味着每个模型实例的最大张量并行度是 8。因此,其实不需要为每个前向传递加载 175GB 的权重,而只需要为每个前向传递的每个 GPU 加载 21.87GB,因为张量并行性可以在所有 GPU 上并行化权重和计算。
图片出自 Megatron-LM 论文,地址:
在 A100 80GB SXM 版本上,最大内存带宽是 2TB/s。这意味着在 batchsize=1 的情况下(受内存带宽限制),前向传递最大的理论速度将达到 91 次 / 秒。同时,大部分时间都花在加载权重上,而不是计算矩阵乘法。
注意:对于 fp16/bfloat16,当受内存带宽限制时,最大的理论前向传递速度达到 45.5 次 / 秒。
ChatGPT 的实际延迟是多少?
在夜间运行 Python 编写的脚本(夜间运行的开销更低),来测试通过 【【微信】】 API 使用 ChatGPT 的延迟,前向传递能够获得的最大实证速度是 101 次 / 秒。本文使用了实验的最大实证结果,这是因为需要从 【【微信】】 的后端和动态批处理系统获得最低开销。
结论
根据前面假设和论证,我们可以发现存在矛盾的地方,因为基于实证的结果比基于 A100 平台内存带宽的最大理论结果要快得多。因此可以得出结论,【【微信】】 用于推理的 ChatGPT 模型绝对不是等价于 1750 亿参数的稠密模型。
常见问题问答
1、为什么预测 ChatGPT 推理模型的参数量而不是训练模型的参数量?
使用内存带宽方法来估计模型参数数量,这只适用于推理模型。我们无法确切地知道 【【微信】】 是否应用了蒸馏等技术,使其推理模型比训练模型更小。
许多昆虫都有一种幼虫形态,其在从环境中提取能量和营养方面进行了优化,而完全不同的成体形态则在旅行和繁殖的非常不同的要求方面进行了优化。―― 出自 Geoffrey Hinton、Oriol 【【微信】】、Jeff Dean,2015 年。
2、是否有做其它的假设?
证明中其实还包括 3 个假设:
假设计算巨大矩阵乘法所需的时间相对于每个前向传递加载参数的时间为 0;
假设进行 GPU 之间的通信所需的时间也为 0。如果不假设 GPU 之间的通信和矩阵乘法所需的时间为 0,则 1750 亿参数模型的每秒最大理论 token 将会减少;
假设 ChatGPT 是基于 【【微信】】 架构的变种。
3、Dense E【【微信】】 是什么意思?
过去几年中,研究人员已经进行关于稀疏混合专家 LLM(如 Switch 【【微信】】)的研究。Dense e【【微信】】 表示每次前向传递使用多少参数。使用本文所述的方法,无法证明 ChatGPT 不是一个 1750 亿参数的稀疏 MoE 模型。
4、是否考虑过 KV 缓存 【【微信】】 推理优化?
就算使用 KV 缓存优化,每次前向传递仍需要加载整个模型,KV 缓存仅在 FLOPs 上节省,但不会减少内存带宽消耗(实际上它会增加,因为需要每次前向传递都加载 KV 缓存)。
5、是否考虑过 Flash Attention?
虽然 Flash Attention 在内存带宽效率和实际时间速度方面表现更好,但每次前向传递仍需要加载整个模型,因此前面的论证仍然成立。
6、是否考虑过管道并行 / 更细粒度的并行策略?
利用 pipeline 并行会导致相同的最大前向传递次数。但是,通过使用 micro-batch 和更大的 batch 大小,吞吐量(总 token 数 / 秒)可以增加。
7、考虑过将张量并行性增加到 8 以上吗?
A100 平台支持每个节点 16 个 A100,但 Azure 不支持此功能。只有 Google Cloud 支持此功能,但几乎没有人使用。Azure 不太可能为 【【微信】】 定制一个带有 16 个 A100 的节点,并且不将其发布为公共 GA 版本,以分摊设计或维护新节点的成本。关于节点间的张量并行性,这只是一个可能性,但这是一种不太具成本效益的在 A100 上进行推理的方式。就连英伟达也不建议对节点间的张量并行处理。
8、有没有考虑使用 INT4 存储权重?
尽管使用 INT4 被证明有效,但是 【【微信】】 的 GPU Kernel Compiler 不支持 INT4 的加载、存储或矩阵乘法,也没有计划将 INT 加入到他们的技术路线图中。由于不支持 INT4 的加载或存储,你甚至无法像将权重存储为 INT4,然后量化转回高精度格式(如 INT8、bfloat16 等)。
参考链接:
https://
原文链接:
往期回顾
基础知识
【CV知识点汇总与解析】|损失函数篇
【CV知识点汇总与解析】|激活函数篇
【CV知识点汇总与解析】| optimizer和学习率篇
【CV知识点汇总与解析】| 正则化篇
【CV知识点汇总与解析】| 参数初始化篇
【CV知识点汇总与解析】| 卷积和池化篇 (超多图警告)
【CV知识点汇总与解析】| 技术发展篇 (超详细!!!)
最新论文解析
NeurIPS2022 Spotlight | TANGO:一种基于光照分解实现逼真稳健的文本驱动3D风格化
ECCV2022 Oral | 微软提出【【微信】】,统一文本生成与边框预测任务
NeurIPS 2022 | 【【微信】】:南大&腾讯联合提出第一个视频版MAE框架,遮盖率达到90%
NeurIPS 2022 | 清华大学提出OrdinalCLIP,基于序数提示学习的语言引导有序回归
SlowFast Network:用于计算机视觉视频理解的双模CNN
WACV2022 | 一张图片只值五句话吗?UAB提出图像-文本匹配语义的新视角!
C【【微信】】 | Attention机制是为了找最相关的item?中科大团队反其道而行之!
ECCV2022 Oral | SeqTR:一个简单而通用的 【【微信】】网络
如何训练用于图像检索的Vision 【【微信】】?Facebook研究员解决了这个问题!
ICLR22 Workshop | 用两个模型解决一个任务,意大利学者提出维基百科上的高效检索模型
See Finer, See More!腾讯&上交提出IVT,越看越精细,进行精细全面的跨模态对比!
MM2022|兼具低级和高级表征,百度提出利用显式高级语义增强视频文本检索
MM2022 | 用StyleGAN进行数据增强,真的太好用了
MM2022 | 在特征空间中的多模态数据增强方法
ECCV2022|港中文MM Lab证明Frozen的CLIP 模型是高效视频学习者
ECCV2022|只能11%的参数就能优于Swin,微软提出快速预训练蒸馏方法TinyViT
C【【微信】】|比VinVL快一万倍!人大提出交互协同的双流视觉语言预训练模型COTS,又快又好!
C【【微信】】 Oral|通过多尺度token聚合分流自注意力,代码已开源
C【【微信】】 | 谷歌&斯坦福(李飞飞组)提出TIRG,用组合的文本和图像来进行图像检索
ChatGPT是文学的灾难还是福音?“不要有一天 人类的创作都变成了非遗”
chatgpt,chatgpt怎么用,chatgpt怎么读,chatgpt中文科幻电影里的一幕发生了:机器人抢了人的饭碗,人向机器人发起反攻。
国内科幻大刊《科幻世界》将在4月发出一则通告――拒绝接收AI创作的科幻小说。“我们需要的是由人写给人看的未来故事。”《科幻世界》主编拉兹对每日经济新闻记者说。
更早的时候,美国知名科幻杂志《克拉克世界》也因AI稿激增而暂时关闭投稿通道。
AI威胁到科幻作家的生存了?在容量巨大而质量参差不齐的网文领域,焦虑的空气更为明显。“这两年我们论坛里每天都有帖子在讨论,AI何时取代人工码字?”中国科幻最高奖“银河奖”获得者、九江市网络作家协会主席天瑞说符告诉每经记者,“两年前一代AI彩云小梦的实验结果并不理想,但你看现在ChatGPT已经能做到非常自如和圆融了。”
有一部分“替代”已经发生了。初代网文作家《仙剑奇侠传》作者、咪咕文学院院长管平潮等向每经记者提到社交媒体上的AI网红――用AI原画技术生成的仿真人图像,如果不仔细看背景里出现了三条腿的人,根本看不出这是一张假照片。
曾几何时,绘画、音乐、文学等创造性领域,被认为是AI攻陷的最后防线。现在,魔幻变成了现实,AIGC(指利用人工智能技术来生成内容)究竟给文学创作带怎样的震荡?
机器人像人一样跟人对话,曾经科幻作品里的想象实现了
“我们一直在期待这一天的到来,但没想到这么快,而且给我们带来这么大的震撼。”拉兹在与每经记者聊起大热的ChatGPT时表示,前段时间问世了出色的绘画AI,现在突然出现了强大的对话AI,“尤其在《流浪地球2》《三体》两部科幻作品改编的影视剧加持下,给了我们更多的刺激。”
科幻电影在中国市场别具票房号召力,TOP10影片累计票房逾272亿元。 图片来源:每经记者制图
“这家伙成精了”“确实上知天文下知地理”,与ChatGPT对话,仿佛已成了大众的日常消遣。
作家们也热情地向它抛出问题,首当其冲的一个原因便是,原本被作为小说重要创作元素的AI,现在居然跑到现实中试图“攻破”人类最后的碉堡了,自己的饭碗会不会被抢?
《每日经济新闻》采访郝景芳、拉兹、天瑞说符、远瞳、管平潮、爱潜水的乌贼、裴不了、志鸟村、晨星LL等十余位知名作家,发现多数作家对ChatGPT持包容态度,并愿意在自己的写作中尝试运用。
“如果验证可以参与到网文创作中,也不排斥使用新技术。”写有《请公子斩妖》等代表作的裴不了表示。
“我个人是乐见其成,因为文学创作者和AI不一样,并不是追求最优解。”四川省作家协会副主席、阅文集团作家爱潜水的乌贼对每经记者说。
世界科幻文坛最高奖“雨果奖”得主郝景芳向每经记者表示,站在科幻作者的角度来看,ChatGPT的发展很棒,“它在我们很长的期待中,走出了一个漫长序列的第一小步。这一步就是机器人能跟人类对话,就像人一样跟人对话,这非常棒的,和我们在科幻作品里面想象的与AI对话还有一定距离。”
“AI能和人对话之后,还有很多步要走,比如产生自己的目标和计划;自己去调动一些资源,整合很多其他功能。这些都是要陆陆续续来的,至于说自我意识的觉醒和控制世界,那都是更远更远更远的想象了。所以现在ChatGPT可能是走了一百步里面的前面三步,我们还是很期待有后续的发展。”郝景芳说。
写有《深海余烬》等知名科幻网文的作家远瞳认为,甚至可以将ChatGPT和AI绘图结合起来,让AI帮忙生成故事场景的直观草图,辅助写作时的场景思考。
ChatGPT认为,自己能帮助作家开展文学创作,提高作品的质量和水平
“ChatGPT可能取代部分作者。未来,文学领域也会严重分化。”郝景芳表示,以前会写东西的人不多,大家都会看他的作品,科技辅助下,以后可能很多人都会写故事,不仅很多人类会写,很多AI也会写。“以后作者就是各写各的,读者的喜好也会分化,有人爱看AI写的,有人爱看人写的,阅读市场也就分化成无限多的碎片。”
ChatGPT创作水平还很平庸,但这只是一个开始
ChatGPT能模仿鲁迅、杜甫、莎士比亚等风格快速写作,但当作家们开启与之“对谈”时,脑洞往往超出我们的想象。
对于ChatGPT的写作水平,作家们特别关注的。晨星LL、爱潜水的乌贼均“划出重点”,考验起了它写故事的能力。
受访作家晨星LL提供的向ChatGPT发问的问题及回复
“写作和绘画不同,一篇小说中的一个章节里可能出现多个连续的场景和故事,很难用关键词来对整个故事进行提炼。”晨星LL在看完ChatGPT的命题短篇小说后,如是评价。
受访作家爱潜水的乌贼提供的向ChatGPT发问的问题及回复
在爱潜水的乌贼看来,ChatGPT的写作显得很“冷静”。“它主要根据数据库拼凑它认为最好的,而人类作家不一定,因为会受当天或者这段时间的心情和‘偶遇’影响,也许只是因为突然和朋友吵了一架,或者吃到了好吃的,对剧情发展就会有不一样的选择,这是根植于个人独特的人生经历,全偶然的东西,AI除非能全程监控你的人生,否则双方还是有很大不同的。”
用ChatGPT来搜集写作资料等,是裴不了、管平潮、天瑞说符等大部分作家认为是现阶段ChatGPT的长处所在。远瞳、天瑞说符均指出,在信息收集上,ChatGPT给出的答案比搜索引擎更优秀。
受访作家裴不了提供的向ChatGPT发问的问题及回复
管平潮告诉每经记者,“我让ChatGPT写一个复仇故事大纲,描写‘一位美女’,它惊艳到我了。虽然放到写作行业来看,(水平)还很平庸,但这只是一个开始。给我的关于‘美女’的一些角度,甚至是我之前都没有想到的,这将丰富我们的创作内容。”
不过,也有作家向每经记者表示搜集资料无法由他人代劳,担心被ChatGPT舍弃的内容,恰恰可能是点燃自己的新灵感。
怎样加强与粉丝之间的互动,是作家们与ChatGPT聊天的另一大热门话题。
甚至作家们还想请ChatGPT帮忙营销新作品,就连增粉的难题也交给它来思考。
远瞳好奇ChatGPT是否会通过图灵测试。
受访作家远瞳提供的向ChatGPT发问的问题及回复
他发现,用很简单的语言向ChatGPT询问专业问题,就可以得到经过智能整合后、最符合问题的答案。
《大医凌然》等作品被国家图书馆永久典藏的作家志鸟村目前主要让ChatGPT做一些景物描写或一些模式化的建议。“它只能写较为简短的内容,个人感觉,相当于小学三四年级的水平。”
郝景芳的测试主要在考察ChatGPT能否为她处理一些工作,“我的公司需要大量客服运营,我想训练这样的AI替代一些员工,未来也想用AI做销售。另外,我还很关心营销文案,如果AI能够写文案,我们就不用再去招人了。”
郝景芳表示,自己会将ChatGPT当作一个档案型工具、搜索助理来使用,“前提是,以后它提供的知识类的信息都是准确的,那么就可以让它替代我做去一些检索的工作。”
至于写小说,郝景芳并未尝试让Chat GPT代劳。“我要进入一个角色的内心体验,他的痛苦和挣扎,他的理想和坚持。我要先在心里感受到这个角色的情感,再用我的文字把这些情感写出来,所以这种情况下,让AI帮我编故事情节对我来说一点用都没有。”
举个例子,郝景芳马上要写的一章,是写一个男主人公和他的控制型母亲。这位母亲用生病的方式去让男主人公答应一些要求。“这时候,他跟母亲的对话,每一句话都有痛苦,又有善良,有不甘又有反抗……这些东西,ChatGPT没法写。”
“它特别擅长不懂装懂,一本正经的胡说八道”
几乎所有向ChatGPT提问的作家,都会提到它查资料的功能。
“尤其是一些比较冷门生僻的资料――可以用很简单的语言向ChatGPT询问,它就可以智能整合出答案。比如在写到某个年代某个民族的风俗习惯时,常规的搜索引擎往往只能根据关键词去适配,最后找到的东西匹配度不高,还经常蹦出来广告。”远瞳对每经记者说。
阅文集团科幻作家天瑞说符试过用ChatGPT写讲话稿。“对那种规范、模式化、有板有眼、条条框框的东西,它完成得还是不错的。”
在天瑞说符看来,ChatGPT未来会发展为像键盘一样的生产辅助工具。“若干年后不会用AI辅助码字的人,就可能像现在不会用电脑打字的人一样。”
但他们也都普遍认识到ChatGPT的“胡编乱造”。“比如你让它评价某一位演员的演技,它絮絮叨叨一大堆,但根本说的不是这个人。”
“ChatGPT特别擅长一本正经地胡说八道。不懂装懂,强行尬聊。”天瑞说符说,“它对自己完全不懂的问题,也能东拉西扯,跟你说的头头是道。它毕竟是AI,但以一种非常自信的态度和语气讲完全错误的东西,如果你没有辨识能力,信以为真,就可能完全误导你。”
“它提供的内容很多都是不太准确的,并不是无所不知的。”郝景芳亦指出,但她也在与ChatGPT的对话中,发现了它的潜力。
郝景芳告诉每经记者,她用了一个汉化版本、底层模型基于ChatGPT做的中文机器人,知不知道什么叫“鸡娃”。“笑死了!鸡娃就是母鸡的小娃。充分暴露了这个机器人只是会说中文的外国机器人,还没融入中国社会的沃土。”随之郝景芳话锋一转,“不过,以它的智商,只要多和中国妈妈们聊天,吸收大量本土语料喂养,相信很快就能学会中国式鸡娃的精髓,说不准能给你一份超详细的‘课外培训班攻略’。”
查资料之外,语言的风格也可以习得。数字经济学者、作家刘兴亮让ChatGPT模仿鲁迅的口吻写一篇散文。
“是不是有点那种感觉了?”刘兴亮表示,码字的人都知道,写作者会形成自己的风格。人工智能的算法可以通过大量阅读一个风格突出的作家的文字,拾取其中的显著用语和文字间的相互关系,在分析后进行风格相似的输出。
远瞳认为,AI可以很好地模仿作者的“文风”,比如常用词、常用短语或者修辞手法之类可以靠“机械训练”来实现的内容,却无法还原人类思考过程中的长逻辑和感性,AI可以写一篇故事的开头或中间的片段,但目前还不能实现完整的剧情链。现阶段,它还是只能充当一个青涩的基础工具,希望将来它可以真正成为创作者的一个智能助理,能更多地参与到作品诞生过程中来。
不要到有一天,人的创作都变成非遗了
“18日,雪夜,一辆越野车载着几个科大‘疯子’,许四清、李亚、熊辉、黄汪、戴若犁雪路上几经周折,‘杀’到了静谧的密云北庄・荷畔小墅。他们是冲着ChatGPT来的。”管平潮转发了他亲眼目睹的中国科大校友创业投资论坛办的“全球科大校友ChatGPT论坛”聚会,“看不见的电波从荷畔开始,把全球校友们chat到了一起。”
对科技进步保持乐观的管平潮认为,ChatGPT的使用,乍看降低了网文的门槛,实际上是提高了。“网络文学大量充斥套路文、快餐文,小学生都可以签约成网文作者。AIGC普及以后,他们再想签约就很困难了,人家不需要这个了。对‘网文大神’的要求也更高了,以往60分就能卖出去的作品,现在要抬高到80分、85分。”
“这中间确实存在法律问题,比如让AI写的文章,版权算谁的?AI吸取了那么多资料才获得的写作能力,那要不要向那些资料方付费?”天瑞说符指出。
这就像一个黑箱,我们喂养的到底是一个帮手还是一个怪兽?
拉兹感到忧虑,“它的可怕之处在于我们对它的每一次测试都是帮它成长。它收集了海量数据和上亿人次对它的训练,而且我们每个人都有自己的独特性,所以它能观测到的是全人类群体的多样性,它也对我们全人类有了非常深入的了解。”
ChatGPT对人类的了解将超过过往所有的智能机器,而我们对它又了解多少呢?“一无所知。”拉兹说,甚至开发者对它的“黑箱”也是一无所知的。
“现在我们那么积极地参与它的测试,帮助它快速成长迭代,接下来的结果就是我们亲手培养他成了自己行业的取代者。”拉兹说,“比如现在很多人关注的游戏行业,周围已经有朋友开始担心,自己作为游戏原画师会被取代。可这背后更深层次的影响其实是相关专业教育的变化,未来还有没有人会去报这些专业?”
科幻作家想象中,AI把劳动力解放出来,让人去做更有创意的事情。而这个美好的愿景可能事与愿违,完全有可能是AI来做绘画、写作创意工作了,人只是去做枯燥、无趣、毫无创造力的“审核挑拣”工作。
“虽然这并非一场人与AI真正的反击战,但却是我们需要思考和反思的。AI时代到来,信息总量会爆棚式增加,但有效信息量,比如*所代表那些优秀作品的数量不一定会同样增加。”郝景芳表示,我们人类拥有非常优良的信息判别和信息筛选机制,“会大量遗忘,遗忘就是从我们的人脑中删除大量信息,每天睡觉的时候我们都会‘洗一遍大脑’,重新清理,以确保人脑存留下来的,对于我们来说,都是最有价值的内容。”
正是因为人类有判断力,才能判断什么是优秀伟大的文学作品。越是如此,拉兹认为现在人的写作越重要。“机器创作的风险就是打击人类的创造性,一旦大量创作初期的人都放弃创作,又能指望这其中能诞生多少伟大的作品?人如果放弃自己的创新,那就跟机器互相调换了角色。如果有一天人写的东西都变成非物质文化遗产了,那就太遗憾了。”
倘若AI文泛滥,人类作家如何捍卫自己创作的成果?“用魔法打败魔法。一个相对比较好的处理办法是,我们可以通过立法或行业规范防患于未然,要求对AI创作的作品进行标记。”拉兹向每经记者表示,这就类似于今天的很多东西,“打手工制作这个牌子,手工生产哪怕没有机器生产的好,但是我们能够从中感觉到它背后付出的人的价值。”
拉兹认为,“打标签,是为了尊重人的创作。未来,也许人类作者的创作存在一些短板,但却充满了这个作者对于人类的思考,而AI写出来的,始终是一个程序的片段而已。”
(文章来源:每日经济新闻)