独家丨李志飞将在大模型领域创业,做中国的 OpenAI|极客公园|李志飞|模型
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
ChatGPT 爆火后,新的共识正在逐渐形成:语言大模型将成为下一个科技时代的超级加速器。中国也需要自己的 AI 大模型。而有能力做这件事的人选并不多,李志飞是其中之一。
作为科技创业圈最资深的自然语言科学家之一,李志飞出身美国约翰霍普金斯大学语言与语音处理实验室,博士期间一直研究机器翻译和自然语言处理。离开大学后,李志飞加入谷歌?AI?团队,主导开发了包括谷歌手机版离线翻译等一系列产品。2012?年,他选择回国,在语音交互领域创业,创立出门问问。
ChatGPT 火起来之后,他一个月两次前往硅谷,和来自 Open AI、谷歌、DeepMind 等各家的工程师和科学家交流取经。「AI 大模型的元年」来了,这是他最直观的感受。一番调研之后,他明白这场大模型之战,参赛选手不止巨头,也不会是只有一两个幸存者的「生存游戏」。
语言模型、人机交互,变革发生在李志飞学习、研究、工作了十几年的领域。他告诉极客公园,已经下定决心投身其中,做一个中国的语言大模型。
「我一直想做一个我能做,我喜欢做,同时也有深远价值的事情。」他表示,早在?2020?年?GPT-3?刚发布时,他就提出GPT-3 是「暴力美学」的胜利,看到了通往 AGI 的可能性,并最早着手开发 GPT-3 中文版 UCLAI。
近日,李志飞和极客公园进行了一场近两个小时的交流,分享了自己对大模型、ChatGPT 的看法,以及自己接下来在这个领域创业的思路。
以下是对话实录,由极客公园整理。
01
「这就是?AI
大模型时代的开启」
极客公园:怎么理解这场 ChatGPT 带来的狂热浪潮?新在什么地方?为什么大家现在这么兴奋?
李志飞 :ChatGPT 始于一个基于统计的语言模型,通过千亿级参数的训练,让它拥有了各种能力,可以快速学会各种任务。这次普通老百姓都体验到,ChatGPT 在语言表达、回答知识性的问题、多轮对话的上下文逻辑等方面的表现,带来的体验超出所有人的期望。它可以编程、做算术题、写诗,甚至某种程度上比真人做得都要好。
极客公园:除了震惊的体验本身,在创业者或者资本看来,是怎么把它看成一个变革性的商业机会的?
李志飞 :我过年第二天就再次跑到美国去,初衷就是想了解有没有人清楚这是怎么搞出来的,为什么大模型这么厉害。
我跟 Google、OpenAI、DeepMind、Meta、Amazon 的人聊,即使技术大牛都还不清楚 ChatGPT 如何拥有这种能力。但是大家能够看到很多现象。第一,用户太疯狂了;第二,美国太疯狂了,在美国知名孵化器 Y Combinator,可能有三分之一以上的项目都是基于大模型做的应用。
所有人都认为,这是 AI 大模型时代的开启,就像 2010 年移动互联网时代一样。不到硅谷,切身感受到 AIGC 的火热,我不会下定此刻是「AI 大模型时代」这一结论。我每天七八个会从早说到晚,喉咙都是哑的,都是讨论这个东西。让你觉得这就是一个时代的开端。
图片来源:DeepMind
极客公园:对这个时间节点,很多人将其比作移动互联网的 iPhone 时刻。大家已经想清楚这是一场怎样的变革了吗?
李志飞:为什么说现在 AI 大模型出来,大家像 2010 或 2011 年的时候看移动互联网一样?我 2010 年在硅谷,当年所有人都觉得移动互联网是一个大事,但所有人也都觉得商业模式不清晰,因为屏幕太小,广告做不了,而且网络信号也不好。但是当时大家看到几个东西,比如屏幕体验已经很好了,3G 通讯也能用了,在路上发邮件查餐馆虽慢一些,但是 GPS 很准。
我对现在也有这种感觉,直觉这是一个大事情。美国创投在 2022 年 10 月已经觉醒了,当时我在美国,有一位红杉的投资者跟我说,李志飞,你的时代到了。我说为啥?他说你知道吗?在美国,红杉所有的管理合伙人只讨论 AIGC,别的项目都不看了。
极客公园:今天,投资 AIGC 还是很多 VC 的看点,但最近大家对于底层 AI 大模型的热情也涨起来了。这是什么原因?
李志飞:现在很多人把 AIGC、ChatGPT、AI 大模型搅在一起。要先理清楚这三个是不同的概念。最底层是 AI 通用大模型,上面可以做 AIGC,比如说 Midjourney 可以画画,Jasper 可以写文案等;也可以基于底层模型做对话机器人,比如基于ChatGPT。在美国,除了 OpenAI 和巨头,还有另外三、四家创业公司也都在做 AI 通用大模型,都有大几亿美金的投入。
但是在中国,你突然发现,要进入 AI 大模型时代,根本就没有一个基本的、能玩得好的 AI 大模型,怎么做应用?如果现在是移动互联网的开端,安卓、 iOS 是不是超级重要?但是今天中国缺乏大模型时代的安卓、 iOS,所以根本没法开发应用。即使中美完全畅通,以今天中国科技的发达程度,以及资本的力量,AI 大模型肯定也是一个必须的基础设施。
极客公园:AI 大模型就是 AI 时代的操作系统级别的存在?
李志飞:我不太想把它比作操作系统,也不想把现在看成 iPhone 时刻或者网景时刻。因为我觉得所有这些比喻,都会让我们错误地去判断这个事情。如果把它比作操作系统,按历史看我们会觉得中国肯定没戏;如果把现在看成网景时刻或 iPhone 时刻,那创业者应该选择去做一个网站或移动 APP,但现在中国缺的反而的是一个大模型时代的浏览器或 iPhone。
另外从形态来讲,无论是浏览器,还是硬件,还是安卓 iOS,都是一个离线的东西,或者是一个静态的东西。
AI 大模型是一个跟数据、业务高度融合,需要动态迭代发展的一个存在,它是个 service,下面不停在变,和应用深度的融合。它远远比当年静态的事物要更加有多样性,有更多可能性。
极客公园:更接近一个新时代的云。
李志飞 :我觉得比喻成智能云 OS 更好一点,这是一种整合的流动的 Service。凡是离线的、硬件的、实体的来类比,AI 大模型都会被带偏。任何对它历史形态的简单归纳,都有可能束缚对于它的正确理解。
02
「它可能让整个
价值链都重新塑造」
极客公园:既然不能做定义,怎么理解目前 AI 大模型展现出的超强能力和想象空间?
李志飞:在我看来,它是一个「通用的认知引擎」。首先它有超强的语言能力,在学习语言的过程中,也学习了很多知识和逻辑。有了这些基本能力后,就能快速拥有做各种任务的能力。
比如说只需要给它少量的数据,就能够做翻译。本来它只懂中文,但如果你给了一万个中英互译的例子,它就能够很快做好翻译。就像打通任督二脉一样,它很快就能够自己把能力串通。
所以这个认知大模型的能力会带来很多可能性。比如拿现在的大模型加一些蛋白质结构的数据,它展现出来的预测结构的能力,很可能就比不是基于语言大模型的其它模型效果要好得多。
极客公园:为什么通用大模型会有这么强大的潜力?
李志飞:模型学会了非常底层的结构和机制。万物都是自然产生的,语言也好,生物结构也好,它一定符合某种我们目前难以解释的规律。模型经过互联网上所有的数据训练之后,它也获得了某种属于自己的解读方式。
极客公园:这种能力是通过学习语言获得的吗?
李志飞:语言是底层的突破,如今通用性表现在,这个系统能够通过语言模型,做各种各样的任务。以前的语言模型只能做某一个具体任务。比如有一个训练好的预训练模型,有潜力做很多任务,但是一旦进行 Fine Tuning (微调)之后,就只能做一个任务了。微调让它处理任务的准确率更高,但却是以丧失多任务能力为代价的。
现在的通用大模型,即使进行了微调后,依旧可以做多个任务。预训练的核心是让它有基础的认知和逻辑能力,通过微调引导,让它能够在各项任务上处理得更好,知道怎么使用已有的知识。
极客公园:就像让一个人上完大学之后,获得了基础能力,然后可以从事不同的岗位,做不同的事情。而不是在幼儿园的时候,就开始训练它拧螺丝。
李志飞:这个比喻很对。以前做某个单独任务,比如机器翻译,就像一上来就教它拧螺丝。当然这也需要一定的语言逻辑和知识能力。但是如果第一天只教了拧螺丝,比起先让它读大学,然后再教它拧螺丝,可能后者拧得更好。第一是学得快速高效,比如之前可能要教 5 年,现在只要教 5 天就行了。第二,不但可以拧螺丝,还可以教它写论文,做教授。只要用很少量的例子,就可以让它快速学习。
极客公园:这样通用大模型的出现,对于 AGI(通用人工智能)意味着什么?
李志飞:今年可以说是 AI 通用大模型的元年。对于 AGI 来说,我认为是明确有光,越来越逼近,也可能永远都不能到达。今天人类的智能可能也没有被挖掘充分。AGI 的天花板可能是人类集体智能的一个集合。如果你把全世界每一个人具备的能力,以及特异的东西都聚合在一起,看成一个抽象统一体,这就通向集体智能。
如果这样假设,现在是这个阶段的起点。
极客公园:如果说现在我们能够看到基于 AI 带来的全新生产力。它会给现实带来怎样的影响?
李志飞:现在 ChatGPT 或 AIGC,还存在于虚拟世界,帮助人类提升效率,比如自动化一些步骤、做一些重复的工作,或者给一些脑暴 idea。未来三五年,都是人的得力助手。
图片来源:DeepMind
我们为什么觉得它厉害,后面的应用可能远超互联网,因为这是一个「通用的认知模型」。一旦把这个方法论、基础放到不同领域,可能会重塑很多东西。
我觉得它可能真的会让整个价值链都重新塑造。比如对于程序员,以后可以用自然语言沟通,提供数据,模型直接写程序。这可能就会导致计算范式产生巨大的改变,操作系统、分布式计算、甚至芯片本身的大部分工作,都会从程序驱动变成数据驱动。这种改变发生以后,今天还有生意的一部分企业,可能再过 10 年就没生意了。
03
「AI 通用大模型
是一个核武器,
它是有时间窗口的」
极客公园:2020 年 GPT-3 出来的时候,大家挺震撼的,国内也热过一波。在那个变化发生的时候,大家没有去把它持续不断地做好,是因为什么?
李志飞:抽象地说,第一,没有对于 AGI 的信仰;第二,就算你有信仰,像我这种已经产生的信仰,并且当时也训练了 GPT-3 中文版 UCLAI,但还是不够坚决;第三,到执行层面,也没有足够的钱;第四,没有一个有真实用户的线上大模型,就没有产品和数据闭环。GPT-3 从 2020 年已经在线上跑了,拿到数据,然后每个星期重新优化迭代。
GPT-3 中文版 UCLAI ?| 图片来源:出门问问
极客公园:在国内,功能性、专用的 AI 很早就在各个场景里应用了,但是大家更多去考虑应用场景,而没有对大模型的革命力有更多的想象。
李志飞:对,刚才只是讲了一些抽象的东西。整个土壤不一样,土壤孕育的人也不一样。人和钱都很重要。比如美国,有一批财务自由的人,总是要干一些跟别人不一样、超级不确定的东西。甚至有时候非常偏执。OpenAI 前三年在毫无营收的前提下,每年烧 5 亿美金。
咱们对不确定性的东西,天然比较恐惧,但跟 10 年前比好太多了。10 年前中国是什么状况,当时我回国做中文版 Siri,做一个语音 APP,大家都觉得如神一般。如果我今天只是把 API(Application Programming Interface 应用程序编程接口)包装一下,做一个 ChatGPT,大家就会觉得山寨。因为大家已经开始认识到,需要 10 亿美金砸里边做大模型。
极客公园:如果说今天就像哥伦布已经发现新大陆,在中国我们要去复现属于自己的 AI 大模型,是怎样的难度?
李志飞:首先,我们知道新大陆肯定有金子;第二,我们大概知道路线是什么样子,但没有特别精准的地图。我们知道 LLM 能够实现,也大概知道它的原理是什么样子,但是做的过程中,肯定有无穷的风浪,有很多决定需要去做,才能够到达彼岸。
现在市场上流传着中美之间的差距是两年,或者不到两年。我觉得,如果现在有足够多的钱、算力、人,我们今天开始搞一个中文 ChatGPT,可以做到和它性能差不多或者差一点,这就是我们培养的一个大学生。人家的大学生现在已经 80 分了,我们培养的是 60 几分,只要努力,后面升到 80 分也越来越快了。
极客公园:比较而言,目前中国做 AI 大模型,有什么优势,有什么劣势?
李志飞:先说短处,对于大规模的 AI 大模型,我们的人才是非常少的,因为中国没有怎么训练出过好的大模型。过去我们的模型参数可能也很多,但不是通用的,语音识别、TTS、人脸识别都单独做一套,所以方法论也有点不一样。还是以大学生比喻,目前中国训练的大模型可能只有 40 分,没到 60 分。只有先做出一个 60 分的大模型,有了自学能力,才能靠勤奋努力升到 80 分。
同时我们也有优势,比如在数据层面,可以标注海量的数据,可以做精修;第二,如果方向很清晰,中国是很擅长「暴力美学」的。
极客公园:对于 AI 大模型,目前所有人都说不清楚商业模式、最终产品形态是什么样。在这种不清晰的状态下,在中国,做一个小一点的东西,直接通向某个目标,是不是更合适?
作者:Hernanderz 监制:罗超 【资料图】 凭借ChatGPT大火之后,openAI首席执行官Sam Altman就彻底飘了,对着搜索老大谷歌不断放狠话。最近的一些动态,则让两家企业之间的火药味变得更浓了。 据外媒统计,进入2023年以来已有多位谷歌AI科学家、研发工程师跳槽openAI。这种AI人才迁移潮,甚至有愈演愈烈之势。光是2月15日这一天,谷歌高级研究科学家Jason Wei和AI研究员Hyung Won Chung就先后在社交平台上宣布跳槽openAI的消息。据外媒统计,近两个月openAI从谷歌挖走了超过10个AI科学家。 翻看openAI的员工资料还可以发现,虽然跳槽时间要早很多,但其首席科学家 Ilya Sutskever也是从谷歌挖角而来。在 Ilya Sutskever的带领下,openAI的研发团队正不断壮大。更为讽刺的是,在去年11月发布ChatGPT时,openAI曾列出一份致谢名单,其中包括5名前谷歌大脑研究员。 一边是自家类ChatGPT产品的首秀翻车,一边是优秀人才的持续流失,谷歌如今可谓腹背受敌。 对于谷歌这个劲敌,Sam Altman也是毫不客气,已经三番两次直接呛声。 今年2月9日,Sam Altman在接受采访时称“谷歌是令人昏昏欲睡的搜索垄断者”,并认为ChatGPT的出现将带来难以预测的颠覆作用。到2月15日,纽约时报又对Sam Altman进行了一次专访,后者再次语出惊人,称“必应很快会变得不可或缺,你不会再想回去使用谷歌搜索。” 众所周知,微软是openAI的幕后金主之一。在ChatGPT大火之后,微软火速向openAI投来100亿美元巨资,也将两者牢牢绑定在一起。对谷歌来说,微软和openAI的结合必然会形成一股令人恐惧的势力――即便如今谷歌在全球搜索市场的份额还远超其他所有竞争对手之和。 但站在openAI和微软的角度,强强联合也不意味着万事大吉。毕竟ChatGPT的热度虽高,却仍未创造出实打实的商业价值,还有沦为资本炒作对象的风险。 数据显示,全球各主要股市的ChatGPT概念股在最近一段日子都是大起大落,前来蹭热度的企业也越来越多。但在这期间,ChatGPT不断传出服务器过载、无法登陆等消息,后台维护压力可见一斑。此外,用上了ChatGPT的微软必应搜索,也没有躲过翻车的命运。 2月14日,有独立搜索研究员发文称使用微软必应搜索时遇到多个事实性错误,包括提供错误的财报数据、推荐错误的旅游行程等。遇到这种情况,也难免让用户对ChatGPT的实际作用以及其相关技术和搜索引擎的结合前景产生担忧。 说到底,无论谷歌还是微软,又或者openAI自己,都还需要不断升级技术,才能满足用户的需求、避免再次翻车。 AI 以迅速的发展,不仅仅在研究界带来了革新,在生活的方方面面也提供智能化,使我们更便利。在本篇内容中,ShowMeAI将介绍 OpenAI 的主要发展以及它们实际落地的 AI 产品应用。 OpenAI 的使命侧重于以安全的方式为全人类实现人工智能的可用性。OpenAI 的模型为数据提取、文本生成、语音识别、图像生成或编辑等日常任务带来了高效的解决方案。尽管它们的任务和目标不同,但它们在开发大型模型方面有着共同的努力,这些模型在当今的大多数应用中都发挥着关键的作用。 DeepMind 的使命是解决智能问题,推动科学发展并造福人类。因此,它强调通用智能,即 AI 在任何情况下都能够自行学习。这也解释了为什么 DeepMind 所有的突破都依赖于深度强化学习,即 AI 只有一个目标和一组可能的行动,需要找出实现该目标的最佳方法。 GPT-3 是一种深度学习模型,该模型经过训练后可以预测序列中的下一个标记,并能生成流畅逼真的文本,覆盖文本分析和摘要、文案撰写、代码生成等应用场景。GPT-3 在发布后不久就掀起了全球的热潮,促进了大量应用程序和初创公司的诞生。下图为用户使用 “Grammar Correction” 开始编程的操作示例。 OpenAI 官方表示,OpenAI API是公司第一个商业产品,自推出九个月以来,超过 300 个应用在使用 GPT-3,成千上万的开发人员在使用平台。目前平均每天生成 45 亿个单词,且生产流量继续扩大中。 如果你需要在线的文本解决方案,那可以阅读更多相关信息并自己把模型玩起来:https://beta.openai.com/playground。OpenAI 为所有新帐户提供 18 美元的信用额度。 CLIP 是 OpenAI 开发的一种大型预训练语言模型,将输入的文本映射到一个连续的向量空间,并通过计算两个文本之间的距离来进行文本分类和相似度计算。与传统的语言模型不同,CLIP可以通过学习数据库中的大量文本数据来实现端到端的文本分类,而不需要任何人工标注。因此,它可以用于许多不同的文本分类任务,包括情感分析、知识图谱构建和图像标注。下图表明 CLIP 极大地改进了图像分类的结果! CLIP可以完成零样本图像分类、图像描述、内容审核、图像生成等。值得注意的是,CLIP 是 DALLE 的构建块之一。 DALL・E 2 是 OpenAI 公司研发的一款新的人工智能系统,不仅可以根据文本描述生成对应的逼真图像,还可以根据文本提示修改图像内容,以及根据给定的图像拓展生成多种主题风格一致的“变体”。目前公开可用,可以直接访问 OpenAI 网站,也可以调用 API(2022 年 11 月已经发布!)。 DALL・E 2 的影响力可与 GPT3 媲美,应用场景也非常丰富,包括插图、图像摄影、NFT 生成、图像编辑等。微软已经宣布 DALL・E 2 将为其 Designer App 提供支持;Shutterstock 还宣布与 OpenAI 建立合作关系,允许用户在平台上使用 DALL・E 2 进行创作! Whisper 是一个自动语音识别 (ASR) 系统。它使用从网络上收集的 680,000 小时多语言和多任务监督数据进行训练。使用如此庞大且多样化的数据集可以提高对口音、背景噪音和技术语言的鲁棒性。此外,它还支持多种语言的转录,以及将这些语言翻译成英语。 Whisper 是免费和可编程的,使用体验令人兴奋!这也使其成为现有商业语音识别服务的有力竞争者。它也可能直接挑战了当前主流的“基于云的 ASR 服务”。 由于 Whisper 模型较小,便于本地运行的移动 App 使用,从而可以避免转录前数据上传云端导致的隐私问题(已经有人行动起来了 例如下方推文)。 OpenAI Codex 是一种基于 GPT-3 的自然语言到代码系统,有助于将 自然语言指令转换为十几种流行的编码语言。Codex 于去年 8 月通过 OpenAI 的 API 发布,是 GitHub Copilot 的主要构建块。 其实,可以要求 GPT3 解释一段简单的文本代码,从代码到解释性文本这个过程GPT3也可以做得很好,理解和生成代码的能力已经编码在 GPT3 中。而 Codex 专注于生成可执行代码,使其成为开发人员的绝佳助手。由于它已经集成到 Visual Studio 中,根据经验,将它无缝集成到开发周期中。 许多应用已经出现,包括各种代码助手 copilot、pygma 和 replit 等。 下图为 Replit 依靠 Codex 来解释部分代码。 ChatGPT 是 OpenAI 于 11 月 30 日推出的一款聊天机器人,能根据用户的提示,在对话中生成类似人类的文本响应,完成回答问题、提供信息或参与对话等各种任务。与许多使用预定义的响应或规则生成文本的聊天机器人不同,ChatGPT 经过了训练,可以根据接收到的输入生成响应,从而生成更自然、更多样化的响应。 ChatGPT的亮点主要有哪些? ChatGPT不仅会聊天,写得了代码,修复得了bug,还能帮你写工作周报、写小说、进行考试答题,绘画,看病,甚至你还可以诱骗它规划如何毁灭人类,许多人认为,ChatGPT不仅仅是一个聊天机器人,而可能是现有搜索引擎的颠覆者。环球百事通!ChatGPT的成功全靠挖角谷歌?openAI创始人再放狠话
未来人工智能应用到普通人生活中 对未来人工智能应用的幻想
未来人工智能的十大应用方向,在未来人工智能将发挥越来越大的作用,未来人工智能在哪些领域广泛使用?,未来人工智能在社会广泛应用的现象