openai未来的发展 一文读懂这些年谷歌ai都做了什么
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
新智元报道
来源:飞哥说AI
作者:高佳; 创意: 李志飞
编辑:好困
【新智元导读】2023年从一场巨头之间的巨额合作开始,一场汹涌已久的AI暗战摆上了台面。
随着微软和 OpenAI 融资的推进,双方在关系变得更加深厚复杂的同时,也在与谷歌等竞争对手的较量中鏖战上风。
一面是Google连夜唤回创始人,急推「高仿」Bard;一面是OpenAI的ChatGPT风头正劲,全民翘首以待GPT-4的到来。
一直在AI领域堪称老大哥的Google,在这场棋局中一酸再酸,毕竟一度在LLM领先的Google曾经看似更有赢战「先机」。
从2017年举世发布Transformer,奠定LLM的基石,到2021年5月的I/O大会上,LaMDA惊艳众人的亮相,Google风光无限。
直到Bard官宣前,「被动」一直被视为Google面对ChatGPT的处境。
Google如何一步步「输掉」这盘布局多年的AI大棋,OpenAI又何以让Google棋输先著?
首先,让我们回顾一下蕴含在这场旷日持久的AI暗战之下的关键技术时间线。
01 Google与OpenAI,LLM领域的发展时间线
从对ChatGPT技术路线的拆解追溯,及其论文中提供的技术点和示意图看,ChatGPT与 InstructGPT 核心思想一致。
其关键能力来自几个方面:强大的基座模型能力(InstructGPT),高质量的真实数据,以及从用户标注中反馈学习(RLHF)等,以此一窥ChatGPT是如何一步步进化成目前的强大形态。
2017年,DeepMind最早提出了RLHF概念,这一后来解锁ChatGPT重要「涌现」能力的关键,它通过人工标注作为反馈,提升了强化学习在模拟机器人以及游戏上的表现效果。
同年6月,Google发布NLP领域的里程碑――Transformer,成为后来所有LLM的基础架构,也为GPT铺就了前提。
2018年6月,在Transformer问世不到一年的时间,OpenAI发布了只有解码器(decoder-only)的GPT生成式预训练模型,通过大数据集进行训练,并主张通过大规模、无监督预训练+有监督微调进行模型构建。
2018年10月,Google重磅推出著名的具有划时代意义的BERT,一个比GPT大四倍,拥有3.4亿参数的大模型,几乎在所有表现上碾压了GPT。而自带光环的BERT只有编码器,用一种「完形填空」的方法,其训练效果超过人类表现,宣告NLP范式的改变。
2019年2月,被碾压的OpenAI准备背水一战,此时一个重要的命题摆在面前,BERT的大火让是否坚持做生成式模型成为一种灵魂拷问,但OpenAI坚定自己的目标――AGI,孤勇直前地践行生成式,并加倍投入,提出有15亿参数的GPT-2,并没有特别新颖的架构,它只是基于Transformer的解码器,稍做修改。尽管最初OpenAI并不愿意发布它,因担心它可能被用来向社交网络发送假新闻。
2019年10月,Google发布了统一的模型框架――T5,基于编码解码器的T5(BERT只有编码,GPT只用解码),最大模型110亿参数并开放。兼容了BERT和GPT下游任务的T5,再次让Google风光无两。
2020年5月,卧薪尝胆的OpenAI,在生成式之路一往无前,发布了规模是GPT-2两个数量级的1750亿参数的GPT-3,在业内掀起AGI热浪,也拉响了巨头规模竞赛的号角。
2021年10月,Google推出FLAN(1370亿参数),并从此开始重新转向只有解码器的模型,还提出了ChatGPT用到的Instruction Tuning概念。
2022年1月,Google再推LaMDA(1370亿参数),展示了接近人类水平的对话质量以及在安全性和事实基础方面的显著改进,并称其可能具有「意识」。所有人在当时觉得Google已在LLM遥遥领先。
2022年3月,OpenAI发表经过「魔鬼调教」的InstructGPT(1750亿参数),提到采用Instruction Finetune和RLHF,比GPT-3更擅长与人类「沟通」,但并未引起大规模的关注。
2022年4月,Google发布基于「通用AI架构」的语言模型PaLM(5400亿参数),文中提到了那一神奇的「激发」ChatGPT逻辑能力的「思维链」。
2022年9月,DeepMind发表Sparrow(700亿),加入RLHF和Retrival,但反应平平。
2022年12月,OpenAI的ChatGPT席卷而来,是InstructGPT的兄弟模型,一经问世迅速引爆全球,堪称人类对AGI里程碑的一步。
2023年2月,Google发布基于LaMDA的Bard,正式对决ChatGPT。
02 功败垂成,Google错失的那些时间点
此时,回头凝望被动应战的Google,来反思Google此前是怎样一步步错失了时间和先机。
错失20个月的解码器押注
如果只用解码器的生成式是LLM的王道,2019年10月,Google同时押注编码解码器的T5,整整错失20个月,直到2021年10月发布FLAN才开始重新转变为decoder-only。
举棋不定的稠密和稀疏之争
如果稠密大模型是王道,Google押注了Mixture of Experts的稀疏多模态结构,全力投入Pathways下一代AI架构,而DeepMind又加入LLM的竞争太晚。直到2020年GPT-3横空出世的18个月后,DeepMind才训练出比GPT-3更大的模型,酝酿许久的Google在2022年4月才发布3倍于GPT-3的PaLM。
迟到24个月的RLHF应用
而在RLHF上,最早的概念提出者DeepMind及Google,起了个大早却迟到了24个月。早在2017年6月,DeepMind率先提出RLHF,2020年9月OpenAI将其用于GPT-3上,DeepMind直到2022年9月才用于Sparrow,而「运筹帷幄」的Google到现在还未见RLHF在LLM上的论文,更未见将研究成果应用于任何「产品」。
尽管拥有AI技术和能力,Google的「保守迟疑」和兵力分散,让其在OpenAI的势如破竹面前,功败垂成。
一招迟缓,全线溃败。高手对弈,还需兵贵神速。
03 OpenAI时速下的远见和信念
反观OpenAI的速度和选择,似乎一切都是势之必然。
蕴含着远见和信念的OpenAI更具果敢和魄力。在巨大的不确定未来和竞争对手的压力面前,OpenAI始终坚定最初的目标和信仰,迈出充满信仰力量的一步步。
从2018年开始,四年如一日,只用decoder only的GPT,践行着「暴力美学」――以大模型的路径,实现AGI。
图灵奖得主LeCun也说OpenAI的ChatGPT「不是什么革命性的东西,只是组合得很好」。而正是如此简单朴素的坚持,见证了OpenAI的眼光和执着。
从技术路径来看,OpenAI是实用至上的「拿来主义」。
没有知识分子的清高,没有孤勇黑马的桀骜,无论是Transformer、Instruction Tuning、还是RLHF和「思维链」,不因是别人发明的就避之不用,而是取其精华,默默在自己的大模型里埋首用功。
如果 Instruction Tuning 是关键,那Google和DeepMind在2021年10月发明了它以后,直到2022年12月都没有重视过。反观OpenAI只花了5个月就将其用到InstructGPT,坚实了ChatGPT的基础。 如果将「思维链」视为 ChatGPT 能解题的关键,当Google还将它用于象牙塔的「实验」时,ChatGPT已准备走向「产品化」。
组织文化和产品路径上,OpenAI坚持「产品驱动」的AI研究,也始终坚持第一时间把「玩具」公示于众,敢于直面群嘲,敢于在“众目睽睽”之下迭代。反观学术驱动的MSR和项目驱动的DeepMind,从「功利主义」的结果来看,相比OpenAI的躬身入局沙场点兵,Google更像坐而论道纸上谈兵。
PR层面,OpenAI并没有过多大公司「声誉风险」的羁绊和考虑,反而利用大众和媒体充满褒赞和争议的声音,热浪不息,全球风靡。
犀利如箭的棋局背后是灵魂棋手的智慧,这也是OpenAI一切远见和信仰的真正来源。
2015年,几位满怀对AI革新信仰又才华横溢的年轻人,从成立一个「工程型的AI实验室」出发,到今天OpenAI成为变革AI的引领者。如果说ChatGPT讲述了一个「足够好的预测带来了你所梦想的一切」的故事,那么其灵魂人物的前瞻眼光和今天的OpenAI也完美注解了这一句。
历史的潮流奔涌向前,硅谷的创新土壤、互相竞逐的技术迭进、巨头的巨额注资,有万千人「守护」梦想的OpenAI走到历史的必然。
任何大卫击败歌利亚的故事,都值得我们思考。
OpenAI此局高踞上风,与微软的联姻也将让两者更强。如今棋布错峙的谷歌,无法再「按兵不动」了。紧急应战的Bard能否让Google重归尊位?
AIGC时代,几位科技巨头们之间的「棋局」激战正酣,一切还远未到握手言和的时刻。
群雄逐鹿,一切才刚刚开始。
google ai库 googleai知识图谱
google浏览器,google play下载,google服务框架下载,google play services随着微软和 OpenAI 融资的推进,双方在关系变得更加深厚复杂的同时,也在与谷歌等竞争对手的较量中鏖战上风。
一面是Google连夜唤回创始人,急推「高仿」Bard;一面是OpenAI的ChatGPT风头正劲,全民翘首以待GPT-4的到来。
一直在AI领域堪称老大哥的Google,在这场棋局中一酸再酸,毕竟一度在LLM领先的Google曾经看似更有赢战「先机」。
从2017年举世发布Transformer,奠定LLM的基石,到2021年5月的I/O大会上,LaMDA惊艳众人的亮相,Google风光无限。
直到Bard官宣前,「被动」一直被视为Google面对ChatGPT的处境。
Google如何一步步「输掉」这盘布局多年的AI大棋,OpenAI又何以让Google棋输先著?
首先,让我们回顾一下蕴含在这场旷日持久的AI暗战之下的关键技术时间线。
01 Google与OpenAI,LLM领域的发展时间线
从对ChatGPT技术路线的拆解追溯,及其论文中提供的技术点和示意图看,ChatGPT与 InstructGPT 核心思想一致。
其关键能力来自几个方面:强大的基座模型能力(InstructGPT),高质量的真实数据,以及从用户标注中反馈学习(RLHF)等,以此一窥ChatGPT是如何一步步进化成目前的强大形态。
2017年,DeepMind最早提出了RLHF概念,这一后来解锁ChatGPT重要「涌现」能力的关键,它通过人工标注作为反馈,提升了强化学习在模拟机器人以及游戏上的表现效果。
同年6月,Google发布NLP领域的里程碑――Transformer,成为后来所有LLM的基础架构,也为GPT铺就了前提。
2018年6月,在Transformer问世不到一年的时间,OpenAI发布了只有解码器(decoder-only)的GPT生成式预训练模型,通过大数据集进行训练,并主张通过大规模、无监督预训练+有监督微调进行模型构建。
2018年10月,Google重磅推出著名的具有划时代意义的BERT,一个比GPT大四倍,拥有3.4亿参数的大模型,几乎在所有表现上碾压了GPT。而自带光环的BERT只有编码器,用一种「完形填空」的方法,其训练效果超过人类表现,宣告NLP范式的改变。
2019年2月,被碾压的OpenAI准备背水一战,此时一个重要的命题摆在面前,BERT的大火让是否坚持做生成式模型成为一种灵魂拷问,但OpenAI坚定自己的目标――AGI,孤勇直前地践行生成式,并加倍投入,提出有15亿参数的GPT-2,并没有特别新颖的架构,它只是基于Transformer的解码器,稍做修改。尽管最初OpenAI并不愿意发布它,因担心它可能被用来向社交网络发送假新闻。
2019年10月,Google发布了统一的模型框架――T5,基于编码解码器的T5(BERT只有编码,GPT只用解码),最大模型110亿参数并开放。兼容了BERT和GPT下游任务的T5,再次让Google风光无两。
2020年5月,卧薪尝胆的OpenAI,在生成式之路一往无前,发布了规模是GPT-2两个数量级的1750亿参数的GPT-3,在业内掀起AGI热浪,也拉响了巨头规模竞赛的号角。
2021年10月,Google推出FLAN(1370亿参数),并从此开始重新转向只有解码器的模型,还提出了ChatGPT用到的Instruction Tuning概念。
2022年1月,Google再推LaMDA(1370亿参数),展示了接近人类水平的对话质量以及在安全性和事实基础方面的显著改进,并称其可能具有「意识」。所有人在当时觉得Google已在LLM遥遥领先。
2022年3月,OpenAI发表经过「魔鬼调教」的InstructGPT(1750亿参数),提到采用Instruction Finetune和RLHF,比GPT-3更擅长与人类「沟通」,但并未引起大规模的关注。
2022年4月,Google发布基于「通用AI架构」的语言模型PaLM(5400亿参数),文中提到了那一神奇的「激发」ChatGPT逻辑能力的「思维链」。
2022年9月,DeepMind发表Sparrow(700亿),加入RLHF和Retrival,但反应平平。
2022年12月,OpenAI的ChatGPT席卷而来,是InstructGPT的兄弟模型,一经问世迅速引爆全球,堪称人类对AGI里程碑的一步。
2023年2月,Google发布基于LaMDA的Bard,正式对决ChatGPT。
02?功败垂成,Google错失的那些时间点
此时,回头凝望被动应战的Google,来反思Google此前是怎样一步步错失了时间和先机。
错失20个月的解码器押注
如果只用解码器的生成式是LLM的王道,2019年10月,Google同时押注编码解码器的T5,整整错失20个月,直到2021年10月发布FLAN才开始重新转变为decoder-only。
举棋不定的稠密和稀疏之争
如果稠密大模型是王道,Google押注了Mixture of Experts的稀疏多模态结构,全力投入Pathways下一代AI架构,而DeepMind又加入LLM的竞争太晚。直到2020年GPT-3横空出世的18个月后,DeepMind才训练出比GPT-3更大的模型,酝酿许久的Google在2022年4月才发布3倍于GPT-3的PaLM。
迟到24个月的RLHF应用
而在RLHF上,最早的概念提出者DeepMind及Google,起了个大早却迟到了24个月。早在2017年6月,DeepMind率先提出RLHF,2020年9月OpenAI将其用于GPT-3上,DeepMind直到2022年9月才用于Sparrow,而「运筹帷幄」的Google到现在还未见RLHF在LLM上的论文,更未见将研究成果应用于任何「产品」。
尽管拥有AI技术和能力,Google的「保守迟疑」和兵力分散,让其在OpenAI的势如破竹面前,功败垂成。
一招迟缓,全线溃败。高手对弈,还需兵贵神速。
03 OpenAI时速下的远见和信念
反观OpenAI的速度和选择,似乎一切都是势之必然。
蕴含着远见和信念的OpenAI更具果敢和魄力。在巨大的不确定未来和竞争对手的压力面前,OpenAI始终坚定最初的目标和信仰,迈出充满信仰力量的一步步。
从2018年开始,四年如一日,只用decoder only的GPT,践行着「暴力美学」――以大模型的路径,实现AGI。
图灵奖得主LeCun也说OpenAI的ChatGPT「不是什么革命性的东西,只是组合得很好」。而正是如此简单朴素的坚持,见证了OpenAI的眼光和执着。
从技术路径来看,OpenAI是实用至上的「拿来主义」。
没有知识分子的清高,没有孤勇黑马的桀骜,无论是Transformer、Instruction Tuning、还是RLHF和「思维链」,不因是别人发明的就避之不用,而是取其精华,默默在自己的大模型里埋首用功。
如果 Instruction Tuning 是关键,那Google和DeepMind在2021年10月发明了它以后,直到2022年12月都没有重视过。反观OpenAI只花了5个月就将其用到InstructGPT,坚实了ChatGPT的基础。
如果将「思维链」视为 ChatGPT 能解题的关键,当Google还将它用于象牙塔的「实验」时,ChatGPT已准备走向「产品化」。
组织文化和产品路径上,OpenAI坚持「产品驱动」的AI研究,也始终坚持第一时间把「玩具」公示于众,敢于直面群嘲,敢于在“众目睽睽”之下迭代。反观学术驱动的MSR和项目驱动的DeepMind,从「功利主义」的结果来看,相比OpenAI的躬身入局沙场点兵,Google更像坐而论道纸上谈兵。
PR层面,OpenAI并没有过多大公司「声誉风险」的羁绊和考虑,反而利用大众和媒体充满褒赞和争议的声音,热浪不息,全球风靡。
犀利如箭的棋局背后是灵魂棋手的智慧,这也是OpenAI一切远见和信仰的真正来源。
2015年,几位满怀对AI革新信仰又才华横溢的年轻人,从成立一个「工程型的AI实验室」出发,到今天OpenAI成为变革AI的引领者。如果说ChatGPT讲述了一个「足够好的预测带来了你所梦想的一切」的故事,那么其灵魂人物的前瞻眼光和今天的OpenAI也完美注解了这一句。
历史的潮流奔涌向前,硅谷的创新土壤、互相竞逐的技术迭进、巨头的巨额注资,有万千人「守护」梦想的OpenAI走到历史的必然。
任何大卫击败歌利亚的故事,都值得我们思考。
OpenAI此局高踞上风,与微软的联姻也将让两者更强。如今棋布错峙的谷歌,无法再「按兵不动」了。紧急应战的Bard能否让Google重归尊位?
AIGC时代,几位科技巨头们之间的「棋局」激战正酣,一切还远未到握手言和的时刻。
群雄逐鹿,一切才刚刚开始。
openai血虐dota2半职业战队 dota2openai胜率多少
openai在您所在的国家不可用,openai services are not available,openai 百度百科,openai为什么在中国用不了人工智能的长期目标是解决高难度的真实世界难题。为了实现这一目标,研究者在近几十年的时间里将游戏作为研究 AI 发展的基石。从双陆棋(1992)到国际象棋(1997)再到 Atari 游戏(2013),在 2016 年,AlphaGo 凭借深度强化学习和蒙特卡洛树搜索战胜了围棋世界冠军。近些年来,强化学习(RL)也在更多类型的任务上得到了应用,比如机器人操作、文本摘要以及《星际争霸》和《Minecraft》等视频游戏。
相比于国际象棋或围棋等之前的 AI 里程碑,复杂视频游戏更具备现实世界问题那样的复杂性和连续性。而 Dota 2 是 Valve Corporation 于 2013 年发行的一款多人实时战略游戏,该游戏在 2013 年到 2019 年之间的同时在线玩家数在 500 000 到 1 000 000 之间。
该游戏也有很多全职的职业玩家;其 2019 年国际冠军赛的奖金池已经超过了 3500 万美元(这是全世界电子竞技游戏中最多的)。该游戏由于一局时间较长、部分可观测性以及高维度的观察和动作空间,这些给强化学习带来了严峻的挑战。另外,Dota 2 的规则也很复杂――该游戏已经历经超过十年的活跃开发,其游戏逻辑使用了数十万行代码来实现。
要为这样复杂的环境创造合适的智能体,关键是要将现有的强化学习系统扩展至前所未有的规模,这需要在数以千计的 GPU 上执行几个月的训练。为了实现这一目标,OpenAI 构建了一个分布式的训练系统,训练出了名为 OpenAI Five 的 Dota 2 游戏智能体。2019 年 4 月,OpenAI Five 击败了一支 Dota 2 世界冠军战队(OG 战队),这是首个击败电子竞技游戏世界冠军的 AI 系统。OpenAI 也将该系统开放给了 Dota 2 社区进行对战试玩;在超过 7000 局游戏中,OpenAI Five 的胜率为 99.4%。
论文地址:https://cdn.openai.com/dota-2.pdf
OpenAI 表示,训练过程还面临着另外一个难题:游戏环境和代码一直在不断升级和变化。为了避免在每次变化之后再从头开始训练,他们开发出了一套工具,能以最低的性能损失继续完成训练――OpenAI 将其称之为「手术(surgery)」。在超过 10 个月的训练过程中,OpenAI 大约每两周执行一次手术。这套工具让 OpenAI 可以经常改进他们的智能体,这只需要很短的时间――比典型的从头开始训练方法要短得多。随着 AI 系统解决的问题越来越大,越来越难,进一步研究不断变化的环境和迭代开发就显得至关重要了。
Dota 2 难在哪儿?
Dota 2 游戏对战发生在一个方形的地图中,两支队伍各自保卫位于对角线上的己方基地。每支队伍的基地都有一个远古遗迹(ancient);
当某方的远古遗迹被敌方摧毁时,游戏便宣告结束。每支队伍由 5 位玩家组成,每位玩家控制一个英雄单位,每个英雄都有自己独特的技能;
游戏期间,每方都有持续派出的「小兵(creep)」单位,但这些小兵不由玩家控制,它们会按路径向敌方基地前进,并会攻击任何出现在其攻击范围内的敌方单位和建筑;
玩家可从小兵收集金币和经验等资源,然后可通过购买物品和升级来提升英雄的战斗力。
为了玩 Dota 2,AI 系统必须解决多种难题:
长时间对局。Dota 2 游戏一般会以 30 帧每秒的速度持续大约 45 分钟。OpenAI Five 每 4 帧选择一个动作,则每局比赛需要执行大约 20000 步。比较一下,国际象棋一般持续 80 步,围棋是 150 步。
部分可观察的状态。每支队伍都只能看见己方单位和建筑附近的部分游戏状态;地图中的其余部分都是隐藏起来的。如果要玩得好,需要基于不完整的数据进行推断以及建模敌方的行为。
高维度的动作和观察空间。Dota 2 有一个很大的地图,地图中有 10 个英雄、几十个建筑、几十个非玩家单位,另外还有神符、树和侦查守卫(眼)等长尾的游戏特征。
OpenAI Five 每个时间步骤会观察大约 16 000 个值(大部分是浮点数和有数百种可能性的类别值)。同时,OpenAI 对动作空间进行了离散化处理;其模型在每个时间步骤从 8000 到 80000(具体数量取决于英雄)个动作选择一个。相比之下,国际象棋每次观察需要大约 1000 个值(这些值大都是有 6 个可能性的类别值),围棋大约需要 6000 个值(全都是二元值)。围棋的分支因子(branching factor)大约是 35 个可行动作,围棋的大约是 250。
另外需要说明,OpenAI Five 在玩常规模式的游戏时还有两个限制条件:
英雄池只有 17 个英雄――在常规游戏时,玩家是在比赛前从 117 个英雄中选择一个,而 OpenAI Five 目前只支持其中 17 个;
不支持能让玩家同时暂时控制多个单位的物品(幻象神符、支配头盔、幻影斧、死灵书)。OpenAI 移除这些物品的原因是控制多个单位会引入额外的技术复杂性。
训练系统
让 AI 玩 Dota
为了将「以超人级水平玩这个复杂游戏」的模糊问题转换成一个可以优化处理的详细目标,OpenAI 提出了以下框架。
尽管 Dota 2 引擎的运行频率是 30 帧每秒,但 OpenAI Five 每隔 4 帧(称为一个时间步骤)才采取一个动作。在每个时间步骤,OpenAI Five 都从游戏引擎接收一个观察,其中编码了作为人类玩家可以看到的所有信息,比如单位血量、位置等。然后,OpenAI Five 向游戏引擎返回一个离散的动作,其中编码了一个所需的移动、攻击等。
当然,某些游戏机制是用人工编写的逻辑控制的,而不是使用策略。这其中包括:英雄购买物品、获得技能的指令、对独特的信使单位的控制、英雄应当保留物品。OpenAI 表示,他们相信用 AI 方法替代人工编写规则最终能让智能体取得更好的表现,但即便如此,现有的智能体就已经取得了超人类的表现。
在训练期间,环境中的某些属性经过了随机化处理,包括游戏中的英雄和英雄购买的物品。因为在与人类对手对战时会出现各种不同的战略和情况,所以为了保证稳健性,必须进行足够多样化的训练。
OpenAI 将策略 π 定义为从观察历史映射到动作的概率分布的函数,并将其参数化为了一个有大约 1.59 亿个参数(θ)的循环神经网络。该神经网络主要由单层的 4096 单元的 LSTM 构成(见图 1)。给定一个策略,OpenAI 玩游戏的方式是在每个时间步骤不断重复地将当前观察传递为输入,然后从输出的分布采样一个动作。