bing的核心技术 bingo数据分析
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
智东西(公众号:zhidxcom)
编译 | 崔馨戈
编辑 | 云鹏
智东西2月23日消息,据The Information报道,微软新版Bing发布前,Bing一直在搜索引擎界不温不火,比起搜索引擎巨头谷歌,微软在消费市场表现一般,甚至一些微软的领导也想砍掉它。最近,微软将【【微信】】集成于Bing中,为其注入了新的活力,不过它仍然面临着与谷歌竞争的巨大挑战。
文章回顾了微软Bing从诞生伊始并不顺利的发展过程:起初,公众习惯了使用谷歌浏览器,没人对Bing这样一个新搜索引擎有兴趣。同时,Bing因无人问津而盈利不佳,微软财务部门甚至一度要掐断Bing的资金来源,是两任CEO力保才使它最终活了下来,Bing这才等到了因【【微信】】而爆火的今天。从“没人在乎”到“万千拥护”,微软Bing一波三折的发展史令人感慨与动容。
一、曾经历生死考验的Bing,能否成为云计算之外的新增长引擎
史蒂夫・鲍尔默(Ste【【微信】】)在2014年辞去微软首席执行官一职之前,曾多次问自己的副手,“我们应该瞄准哪里?”
据两位听到他问这个问题的人说,鲍尔默最大的挫败感来源于微软在消费市场的失败,即微软在2009年大张旗鼓推出的搜索引擎Bing,未能吸引公众的注意力。
今年,微软推出的【【微信】】版Bing掀起了其他微软产品在消费市场中从未有过的波澜,微软终于有了一款为人热议的面向消费市场的新产品。
新版Bing推出后,各界人士对这个搜索引擎与用户交谈的能力感到震惊。在不到一周的时间内,数百万人注册试用新的Bing,谷歌的股价暴跌。
对于制作Bing的团队来说,这种突然涌现的认可是一种陌生的感觉。在旧Bing推出后的几年里,它多次面临生死考验,因为微软的财务主管一直在质疑,公司是否应该继续向一个不挣钱、市场份额小的搜索引擎投入资金,甚至一度要掐断Bing的资金来源。
“这对我们来说是一段漫长的旅程。虽然多年来我们没有取得成功,但一路走来也付诸了大量努力。” 微软Bing和人工智能业务副总裁乔迪・里巴斯(Jordi Ribas)在接受采访时告诉The Information:“我们不得不谦虚地低着头继续工作,但现在我们很高兴将竞争和创新带入我们认为对人类非常重要的市场。”
▲微软Bing和人工智能业务副总裁乔迪・里巴斯(Jordi Ribas),来源:Linkedin
新版Bing爆火后,微软内部一直洋溢着兴奋与欢乐的气氛,但几天后,气氛又变得紧张。因为Bing用户在使用中发现,它有时会给出可疑的答案,偶尔还会有奇怪的行为(辱骂、指责用户)。与此同时,微软尚无法证明Bing实际上可以在搜索市场中争到有意义的份额,从而超过该领域的主导力量谷歌。
“微软正在押注人工智能,并将其视为下一代产品升级的关键技术。在过去的几年里,这是微软上下达成一致的主题。”前微软高级副总裁布拉德・西尔弗伯格(Brad Sil【【微信】】)说,“但用Bing和【【微信】】引起如此大的轰动是明智的吗?这个问题值得微软思考。”
如果微软能够使Bing获得真正的成功,那将是该公司的分水岭。微软在过去十年中的成就几乎完全归功于其在云计算方面的成功,尽管云计算这项业务很重要,但公众基本上看不到这项业务。近年来,微软一直希望自己能在消费市场中成为一个更大的参与者,让公众看到自己,从而获得规模客观而持久的新增长。
因此,为离大众更近,微软试图在2020年收购TikTok的美国业务,但没有成功。因为当时美国政府出于国家安全考虑,要强制出售中国拥有的应用程序。与此同时,微软也正在努力挽救他们以690亿美元收购的《魔兽世界》开发商动视暴雪(Acti【【微信】】)。这项收购是游戏行业史上收购金额之最,帮助微软改善了其最引人注目的“Xbox游戏业务”,目前微软在游戏市场中的份额落后于索尼和任天堂。
在搜索领域,鉴于谷歌的主导地位,微软面临着一场更艰难的战斗。在过去的一年里,微软广告和网络服务首席执行官米哈伊尔・帕拉欣(Mikhail Parakhin)称,Bing的互联网搜索指数(指某个关键词在领域内被使用的次数,它代表着用户关注度)并不好,并命令团队解决这个问题。
根据里巴斯的说法,Bing团队目前的首要任务是提高搜索质量、修复聊天机器人怪癖,并减少聊天机器人错误答案的发生,他说该团队已经与【【微信】】合作,在过去一周发布了多个更新。并补充说,自聊天机器人推出以来,用户对Bing的聊天回复功能70%以上都是持认可赞扬的态度。
“融入了【【微信】】的Bing仍然存在问题,但这些都是我们已经知道的大型语言模型的问题,我们会努力解决。”里巴斯说。
二、没人在乎,人们没兴趣寻找另一个搜索引擎
最初的Bing诞生于微软极度不安全的时刻。
在二十一世纪初期,微软未能认真对待谷歌的崛起,而是不太用心地用MSN搜索来对抗它,后来MSN更名为Li【【微信】】。但随着互联网广告市场变得火热,谷歌成为了金融巨头,并逐渐开始用自己的产品攻击微软地盘上的项目,包括电子邮件、文字处理器、网络浏览器和智能手机软件。
作为回应,时任微软CEO的鲍尔默在2008年做出了一个大胆的举动:对当时谷歌的主要竞争对手雅虎发起了收购要约,出价475亿美元。但雅虎拒绝了这一提议,微软未获成功。
▲微软前任CEO史蒂夫・鲍尔默(Ste【【微信】】)
第二年,微软就推出了Bing。对此,微软高层管理人员争论不断。公司的财务部门紧张地关注Bing的损益表,对Bing的盈利表示悲观。但微软其他高层认为, Bing将很快实现盈利。
微软投入了巨额营销预算来推广新的搜索引擎,在线和电视广告将Bing吹捧为“决策引擎”,旨在为人们的问题提供有用的答案,而不是提供整个互联网中未经过滤的噪音。但这些广告没有吸引什么新用户。
“我们早期做了大量的消费者研究,但发现没有人在寻找另一个搜索引擎。”Bing前高级主管Stefan Weitz说,“对于大多数人来说,找到一个新的搜索引擎的兴奋程度介于刷牙和系鞋带之间,根本没人在乎。
即使是微软的员工,也大多对Bing没什么热情。据当时在微软工作的人说,Bing推出几年后,Bing团队调查了有多少微软员工在他们的工作计算机上将Bing作为默认搜索引擎,然后发现远不到一半的人这样做。
到2011年,微软的领导者似乎也越来越怀疑Bing的能力。据两位知情人士透露,公司将Bing每年约2.5亿美元的营销预算削减至几乎为零。
在随后的几年里,Bing的预算也基本保持不变。据当时了解其费用的人称,2012年,微软在Bing上花费了大约10亿美元,而Bing仅带来了大约2亿美元的收入。
据知情人士称,那几年,鲍尔默面临来自当时的首席财务官彼得・克莱因(Peter Klein)等人的巨大压力,克莱因要求他完全放弃对Bing的努力,以此减少微软的损失。鲍尔默拒绝了,认为微软应该让Bing继续存在,即便Bing只是为了挑战谷歌的核心业务。
尽管可用的资源有限,但Bing团队还是努力建立了一些早期的合作伙伴关系,帮助其改进搜索引擎。
2009年,微软与雅虎达成协议,用Bing为雅虎搜索业务提供动力。这笔交易起初并没有带来多少收入,因为雅虎被允许在头五年保留其搜索引擎广告的大部分收入,但这次合作,为Bing提供了急需的用户数据,帮助Bing了解人们输入了哪些搜索词,应该抓取网络上的哪些部分作为索引。
三、攻击谷歌“搜索鸿沟”,Bing借力【【微信】】,开启反击
萨蒂亚・纳德拉(Satya Nadella)曾担任多年微软搜索业务的高管,于2014年掌舵微软后不久,他指导全公司在更多产品中使用Bing的搜索引擎软件,包括其Edge浏览器、Windows和Cortana。这些举措帮助Bing扭转了财务困境。据当时熟悉该业务的人士称,2015年,Bing获得了超过10亿美元的收入,这主要是由搜索广告的销售推动的。
但收支平衡并不意味着微软愿意向Bing提供额外的资金。根据一位前必应领导人的说法,Bing能够自己支撑自己业务的事实,使得该团队更难从微软的高层获得新的投资。
在随后的几年里,微软高层继续质疑Bing,根据分析公司Similarweb的数据,微软在全球搜索市场中的只占3%,微软在思考是否值得付出维持它生存的成本。
在负责Bing的执行副总裁哈里・沙姆(Harry Shum)宣布计划在2019年退休后不久,Bing未来的不确定性就开始在微软内部酝酿。据两位知情人士透露,这种不确定性主要源于微软的首席财务官艾米・胡德(Amy Hood)决定无限期地暂停对Bing的新投资。
尽管如此,2019年的两件大事的发生,已开始为Bing目前正在经历的重生做了准备。
首先,微软对【【微信】】进行了10亿美元的投资,此次合作允许【【微信】】使用微软的Azure云服务器几乎免费地运行其模型。该协议部分由微软首席技术官凯文・斯科特(Ke【【微信】】)精心策划,他在沙姆离职后领导了Bing。
据一位现任员工称,投资完成后不久,Bing团队开始与【【微信】】合作,共享两家公司关于人工智能的数据信息。同时,通过使用【【微信】】的大语言模型在线查找与用户查询相关的文本片段后,Bing搜索结果的质量大大提高了。
第二件大事是微软聘请了米哈伊尔・帕拉欣(Mikhail Parakhin),帕拉欣是一名前Bing经理,于2014年离职,现在担任俄罗斯搜索巨头Yandex的首席技术官。当时,帕拉欣很抢手,据参与微软招聘他的人士称,亚马逊当时也想招募他领导搜索团队。但纳德拉最终胜出,吸引了帕拉欣回来,让他监督改善Bing搜索质量,同时领导Bing将搜索技术引入其他消费者产品。
▲微软高管艾米・胡德(左)、布拉德・史密斯(中)和米哈伊尔・帕拉欣(右)在二月的Bing活动中,来源:The Information
当时在微软内部,帕拉欣已将提高Bing的质量作为重中之重。
同时,帕拉欣还专注于改进Bing的地图数据,这些数据在某些地方已经过时多年,而且其在全球其他语言和地理区域的质量也很差。
但Bing最戏剧性的变化发生在本月早些时候,当时微软开始允许公众使用新版本的搜索引擎,该引擎采用了【【微信】】的技术。
此外,Bing还纳入了一个由【【微信】】的DALL・E 2驱动的图像创建工具,该工具允许用户通过输入他们想看到的简短描述来生成图像。微软之前将另一个【【微信】】机器学习模型Codex纳入其GitHub Copilot工具,该工具为开发者自动推荐代码。微软也计划在其他产品中使用【【微信】】的技术,包括微软365生产力应用套件。
与此同时,微软和【【微信】】之间的关系也在不断加深。上个月,微软宣布对这家人工智能初创公司进行一项新的、数十亿美元的投资。据知情人士透露,在讨论这项投资时,两家公司谈到了分享Bing广告的收入问题。我们无法得知最终的协议是否包括广告分成。
即使在过去两周用户对Bing的兴趣激增,但谷歌相比规模小得多的竞争对手微软仍有一个主要优势:谷歌可以从安卓手机和iPhone上获得大量数据。在后者的设备上,谷歌每年向苹果支付数十亿美元,使谷歌搜索成为苹果浏览器中的默认搜索引擎。谷歌利用移动数据来跟踪人们正在搜索的词汇,并提高其搜索结果的质量,这是微软缺乏的优势。
此外,微软会定期竞标与苹果的搜索协议,该协议每三年更新一次,但微软只设法赢得了一小部分的附带交易,包括为Siri的图像搜索和Mac上的Spotlight搜索提供支持。据一位在职员工说,Bing的领导人对竞标表示乐观,认为Bing最近的复兴可能会在下次苹果续约时为其提供更好的谈判地位。
微软没有对与未来苹果交易的可能性发表评论。里巴斯称,自微软推出新版搜索引擎以来,用户对Bing搜索结果相关性的打分大幅跃升,减少了与谷歌之间的质量差距。
结语:苦尽甘来,Bing十五年的等待有了答案
互联网行业几乎是大浪淘沙,技术更迭迅速,整个行业几乎是瞬息万变,这使得屹立不倒的“常青树”少之又少,幸存下来的科技巨头,无一不是在科技浪潮中几经沉浮才最终站稳。因此,科技公司们的信条更多是及时转换,见机行事,而不是持之以恒,坚忍不拔。
微软Bing成立之初是个“没人在乎”的搜索引擎,对外,竞争对手谷歌不把它放在眼里,对内,高层时刻紧盯其损益表,甚至无限期地暂停对Bing的投资,使Bing多次面临着生死考验。现如今,微软先行发布【【微信】】版搜索引擎,打响与谷歌的人工智能大战并占据优势,抢占了搜索市场份额,引发谷歌股价暴跌。即便微软暂时无法撼动谷歌在搜索引擎市场的绝对统治地位,但Bing向外界发出了自己的声音,获得了重生。
未来,微软如何与【【微信】】继续合作,能否成功优化自己的新版Bing,留住此次因【【微信】】吸引来的海量用户,值得关注与期待。
来源:The Information
深思考丨ChatGPT之后,下一代大型语言模型在哪里?|首席执行官|模型|训练
深 思考,深思和思考,深思深入思考是什么词语,有关深度思考的感悟转自 学术头条
【编者按:ChatGPT的爆火,让大语言模型受到了人们的关注,然而这些来自不同公司的大语言模型,像OpenAI的GPT-3、Google的PaLM或LaMDA、Meta的Galactica或OPT等,都是在相同的基本方式上构建的,都是基于Transformer构建的自回归、自我监督、预训练、密集激活模型。虽然各种大模型表现类似惊人的能力,但目前的人工智能远远没有到达其能力的终点。那么未来大语言模型的出路在哪里?The Next Generation Of Large Language Models(下一代大语言模型)根据一些最新的研究结果提出了一些猜想。比如大模型可以产生训练数据来用于改善自己;大模型可以核查确认事实;海量稀疏专家模型等。该文由Radical 【【微信】】的合伙人,同样也是【【网址】】的投资者Rob Toews撰写,并发表在最近一期的福布斯杂志。】
也许您还没有听说过,人工智能是最热门的新事物。
如今,从硅谷到达沃斯,每一位风险投资家、企业家、财富 《500》 强首席执行官和记者都在谈论生成人工智能。
对于那些在 2022 年开始真正关注 AI 的人来说,他们认为像ChatGPT 和 Stable Diffusion 这样的技术似乎是凭空冒出来,席卷了全球。
早在 2020 年,我们就在本专栏写过一篇文章,预测生成式 AI 将成为下一代人工智能的支柱之一。
至少自2019 年GPT-2 发布以来,该领域的工作人员已经清楚,生成语言模型有望引发巨大的经济和社会变革。同样,虽然文本到图像模型去年夏天才引起公众的注意,但自 OpenAI 于 2021年1 月发布最初的DALL-E以来,该技术的优势似乎已经不可避免地。
出于同样的原因,重要的是要记住,人工智能的当前技术水平远未达到人工智能能力的最终状态。相反,人工智能领域的发展从未像现在这样快速。尽管 ChatGPT 目前在我们看来令人惊叹,但它只是下一步的垫脚石。
下一代大型语言模型 (LLMs) 会是什么样子?这个问题的答案已经存在,目前正在人工智能初创公司和研究小组的开发中。
本文重点介绍了三个新兴领域,它们将有助于定义生成式 AI 和 LLM 的下一波创新浪潮。对于那些希望在这个瞬息万变的世界中保持领先地位的人来说,请继续阅读:
01、可以自己生成训练数据以提高自己的模型
想想人类是如何思考和学习的。我们从外部信息来源收集知识和观点――比如,通过阅读一本书。但我们也会通过思考一个话题或思考一个问题,自己产生新颖的想法和见解。我们能够通过内部反思和分析来加深对世界的理解,而不直接依赖于任何新的外部输入。
人工智能研究的一条新途径旨在使大型语言模型能够做类似的事情,有效地引导它们自己的智能。
作为他们培训的一部分,今天的 LLMs 吸收了世界上积累的大部分书面信息(例如,维基百科、书籍、新闻文章)。如果这些模型一旦经过训练,就可以使用它们从这些来源吸收的所有知识来生成新的书面内容,然后将这些内容用作额外的训练数据来改进自己,那会怎样?初步研究表明,这种方法可能可行且功能强大。
在最近的一项名为“大型语言模型可以自我改进”的研究工作中, Google 的一组研究人员构建了一个 LLM,它可以提出一组问题,为这些问题生成详细的答案,并过滤自己的答案以获取最高质量的输出,然后根据精选的答案进行自我微调。值得注意的是,这导致了各种语言任务最新的最先进的性能。例如,该模型在 GSM8K 上的性能从 74.2% 提高到 82.1%,在 DROP 上从78.2% 提高到 83.0%,这两个流行的标准用于评估LLM 性能。
最近的另一项工作建立在称为“指令微调”的重要 LLM 方法的基础上,它是ChatGPT 等产品的核心。ChatGPT 和其他指令微调模型依赖于人工编写的指令,而该研究小组构建了一个模型,可以生成自己的自然语言指令,然后根据这些指令进行自我微调。性能提升非常显著:这种方法将基础 GPT-3 模型的性能提高了 33%,几乎与 OpenAI 自己的指令调优模型的性能相当。
在一项与主题相关的工作中,来自谷歌和卡内基梅隆大学的研究人员表明,如果一个大型语言模型在遇到问题时,在回答之前先背诵它对该主题的了解,,它会提供更准确和复杂的回答。这可以粗略地类比为一个人在谈话中,他不会不是脱口而出关于某个话题的第一个想法,而是在分享观点之前搜索她的记忆并反思她的信念。
当人们第一次听说这方面的研究时,往往会产生一个概念上的异议――这难道不是循环的吗?模型如何生成数据,然后使用这些数据来改进自身?如果新数据首先来自模型,那么它包含的“知识”或“信号”不应该已经包含在模型中了吗?
如果我们将大型语言模型设想为数据库,存储训练数据中的信息,并在出现提示时以不同的组合再现这些信息,那么这种反对意见是有道理的。但是――尽管听起来让人不舒服,甚至令人毛骨悚然――我们最好还是按照人脑的思路来构想大型语言模型(不,这个类比当然不完美!)。
我们人类从世界上吸收了大量数据,这些数据以不可估量、无数的方式改变了我们大脑中的神经连接。通过反省、写作、交谈――有时只是睡个好觉――我们的大脑就能产生新的见解,这是我们以前从未有过的,也没有出现在世界上任何信息源中。如果我们将这些新的见解内化,它们可以让我们变得更聪明。
鉴于世界可能很快就会用完文本训练数据,LLM 可以生成自己的训练数据的想法尤为重要。这还不是一个广为人知的问题,但却是许多人工智能研究人员担心的问题。
据估计,全球可用文本数据的总存量在 4.6 万亿到 17.2 万亿个Token之间。这包括世界上所有的书籍、所有的科学论文、所有的新闻文章、所有的维基百科、所有公开可用的代码,以及互联网的大部分经过了质量过滤的内容(例如,网页、博客、社交媒体)。最近的另一项估计将总数定为 3.2 万亿Token。
DeepMind 的 Chinchilla 是当今领先的 LLMs之一,接受了 1.4 万亿个Token的训练。
换句话说,我们可能在一个数量级内,耗尽世界上所有有用的语言训练数据供应。
如果大型语言模型能够生成自己的训练数据,并使用它来继续自我改进,这可能会使迫在眉睫的数据短缺变得无关紧要。对于LLMs来说,这将代表一个令人费解的飞跃。
最近流行的说法是,ChatGPT 和类似的对话式 LLMs 即将取代 Google 搜索,成为世界上最重要的信息来源,颠覆曾经强大的科技巨头,如 Blockbuster 或 Kodak。
这种叙述严重地将事情简单化了。今天存在的 LLM 永远不会取代 Google 搜索。为什么不?简而言之,就是因为今天的LLms在编造东西。
尽管它们很强大,但大型语言模型经常会产生不准确、误导或错误的信息(并自信且令人信服地呈现)。
ChatGPT 的“幻觉”(这些错误陈述被称为幻觉)的例子比比皆是。这并不是要针对 ChatGPT;目前存在的每一个生成语言模型都以类似的方式产生幻觉。
举几个例子:它推荐不存在的书;它坚持认为220 这个数字小于 200;不确定刺杀Abraham Lincoln’s的凶手在遇刺时是否与林肯在同一个大陆;它对 provides等概念提供了看似合理但不正确的解释。
大多数用户不会接受搜索引擎有时会把这些基本事实搞错;即使是 99% 的准确率也不足以让市场广泛采用。OpenAI 首席执行官 Sam Altman 本人也承认这一点,他最近警告说:“ChatGPT 非常有限,但在某些方面已经足够出色,足以给人一种伟大的误导性印象。现在依赖它来做任何重要的事情都是错误的。”
LLMs 的幻觉问题是否可以通过对现有架构的渐进式改进来解决,或者是否有必要对 AI 方法论进行更基本的范式转变以赋予 AI 常识和真正的理解,这是一个悬而未决的问题。深度学习先驱 Yann LeCun认为是后者。LeCun 的逆向观点可能被证明是正确的;时间会证明一切。
不过,在近期内,一组有前途的创新至少可以减轻 LLM 在事实上的不可靠性。这些新方法将为LLM在现实世界中部署准备方面发挥重要作用。
当前使语言模型更准确的工作的核心是两个相关的功能:(1) LLM 从外部来源检索信息的能力,以及 (2) LLM 为他们提供的信息提供参考和引用的能力。
ChatGPT 仅限于已经存储在其中的信息,在其静态权重中捕获。(这就是为什么它无法讨论 2021 年之后发生的事件,那时模型被训练。)能够从外部来源获取信息将使 LLM 能够访问最准确和最新的可用信息,即使当该信息经常变化时(例如,公司的股票价格)。
当然,能够访问外部信息源本身并不能保证 LLM 将检索到最准确和相关的信息。LLM 提高了人类用户的透明度和信任的一种重要方法是包括对他们从中检索信息的来源的引用。此类引用允许人类用户根据需要审核信息源,以便自己决定其可靠性。
该领域的重要早期工作包括REALM(来自 Google)和RAG(来自 Facebook)等模型,它们均于 2020 年发布。随着近几个月对话式 LLM 的兴起,该领域的研究正在迅速加速。
去年,OpenAI发布了一个名为 WebGPT的 GPT 模型的微调版本,可以使用 【【微信】】 Bing 浏览互联网,以便对提示提供更准确和深入的响应。WebGPT像人类一样浏览互联网:它可以向 Bing 提交搜索查询、跟踪链接、在网页上上下滚动,并使用 Ctrl+F 等功能查找术语。当模型在互联网上找到相关信息并将其合并到输出中时,它会提供引用,以便人类用户可以看到信息的来源。
结果是令人鼓舞的:对于相同的查询,WebGPT 的响应在 56% 的情况下优于人类受试者编写的响应,在 69% 的情况下优于 Reddit 上评分最高的响应。
DeepMind 也在沿着这些方向进行研究。几个月前,DeepMind 发布了一个名为Sparrow的新模型。与 ChatGPT 一样,Sparrow 也是基于对话的;与 WebGPT 一样,它可以在互联网上搜索信息并为其断言提供引用。Sparrow 建立在 DeepMind 早期的重要工作之上,包括SpaLM、RETRO和GopherCite。
DeepMind 的研究人员发现,Sparrow的引用在 78% 的情况下是有用且准确的――这表明这种研究方法很有前途,而 LLM 不准确的问题远未解决。
包括 【【网址】】 和 Perplexity在内的年轻的初创公司最近也推出了 LLM 支持的对话搜索界面,能够从外部来源检索信息并引用参考文献。这些产品今天可供公众使用。
LLM最大的缺点是他们不可靠,他们固执地倾向于自信地提供不准确的信息。语言模型有望重塑我们经济的每个部门,但在这个问题得到解决之前,它们永远无法发挥其全部潜力。预计在未来几个月内,我们将会在该领域看到大量活动和创新。
当今最著名的大型语言模型实际上都具有相同的架构。
Meta AI 负责人 Yann LeCun近日表示:“就底层技术而言,ChatGPT 并没有特别的创新。这不是革命性的,尽管这是公众对它的看法。只是,你知道,它被很好地组合在了一起,做得很好。”
LeCun 的声明在Twitter上引发了大量争议和辩论。但一个简单的事实是,他是正确的,任何严肃的人工智能研究人员都不会对此提出异议。
当今所有著名的语言模型――例如,来自OpenAI的GPT-3、来自Google的PaLM或LaMDA 、来自 Meta 的Galactica或OPT 、来自Nvidia/【【微信】】 的Megatron-Turing、来自 AI21 Labs 的Jurassic-1――都是在相同的基本方式上构建的。它们是自回归、自我监督、预训练、密集激活的基于Transformer的模型。
可以肯定的是,这些模型之间存在差异:它们的大小(参数计数)、它们训练的数据、使用的优化算法、批量大小、隐藏层的数量、它们是否经过指令微调等等.这些变化可以转化为有意义的性能差异。不过,核心架构变化不大。
然而,一种有趣的不同的语言模型架构方法(称为稀疏专家模型)正在形成势头。虽然这个想法已经存在了几十年,但直到最近才重新出现,并开始流行起来。
上面提到的所有模型都是密集的。这意味着每次模型运行时,都会使用它的每一个参数。例如,每次您向 GPT-3 提交提示时,模型的所有 1750 亿个参数都会被激活以产生响应。
但是,如果一个模型能够仅调用其参数中最相关的子集来响应给定的查询呢?这是稀疏专家模型背后的基本概念。
稀疏模型的定义特征是,它们不会为给定输入激活所有参数,而是只激活那些有助于处理输入的参数。因此,模型稀疏性将模型的总参数计数与其计算要求分离开来。这导致了稀疏专家模型的关键优势:与密集模型相比,它们可以更大且计算要求更低。
为什么它们被称为稀疏专家模型?因为稀疏模型可以被认为是由充当不同主题专家的“子模型”的集合组成的。根据提供给模型的提示,模型中最相关的专家被激活,而其他专家保持不活动状态。例如,用俄语提出的提示只会激活模型中可以用俄语理解和回应的“专家”,从而有效地绕过模型的其余部分。
当今所有最大的 LLM 都是稀疏的。如果你遇到一个参数超过 1 万亿的 LLM,你可以放心地假设它是稀疏的。这包括谷歌的Switch Transformer(1.6万亿参数)、谷歌的GLaM(1.2 万亿参数)和 Meta 的mix of Experts模型(1.1 万亿参数)。
“AI 最近的大部分进展都来自于训练越来越大的模型,”Mikel Artetxe 说,他曾领导 Meta 对稀疏模型的研究,然后辞职与他人共同创立了一家秘密的 LLM 初创公司。“例如,GPT-3 比 GPT-2 大 100 倍以上。但是,当我们将密集模型的大小扩大一倍时,我们也会使其速度加倍。稀疏模型使我们能够在不增加运行时间的情况下训练更大的模型。”
最近对稀疏专家模型的研究表明,这种架构具有巨大的潜力。
谷歌去年开发的稀疏专家模型GLaM 比GPT-3 大 7 倍,训练所需能量减少三分之二,推理所需计算量减少一半,并且在广泛的自然语言方面优于 GPT-3。基于 Meta 的稀疏模型上进行的类似工作也产生了类似的有希望的结果。
正如 Meta 研究人员总结的那样:“我们发现稀疏模型可以在一小部分计算量上实现与密集模型相似的下游任务性能。对于计算预算相对适中的模型,稀疏模型的性能可与需要几乎四倍计算量的密集模型相提并论。”
值得一提的是,稀疏专家模型的另一个好处是:它们比密集模型更具可解释性。
可解释性――人类理解模型为什么采取它所做的行动的能力――是当今人工智能最大的弱点之一。总的来说,今天的神经网络是无法解释的“黑匣子”。这可能会限制它们在现实世界中的实用性,特别是在医疗保健等高风险环境中,人工审查很重要。
稀疏专家模型比传统模型更自然地具有可解释性,因为稀疏模型的输出是模型中可识别的、离散的参数子集的结果――即被激活的“专家”。事实上,人类可以更好地从稀疏模型中提取有关其行为的可理解的解释,这可能被证明是这些模型在实际应用中的决定性优势。
稀疏专家模型如今并未得到广泛使用。与密集模型相比,它们不太容易被理解,而且在技术上更复杂。然而,考虑到它们的潜在优势,尤其是它们的计算效率,看到稀疏专家体系架构在未来的 LLM 世界中变得更加普遍就不足为奇了。
用Graphcore 首席技术官 Simon Knowles 的话来说:“如果 AI 可以做很多事情,它就不需要访问所有知识来做一件事。这是显而易见的。这就是你的大脑的工作方式,也是人工智能应该的工作方式。如果到明年有人开始构建密集的语言模型,我会感到惊讶。”
美国孵化9年软件却投奔上海?国际顶尖开源社区重磅项目落沪:千金难买我愿意
美国yc孵化器,美国创业孵化器,美国创业孵化公司,美国知名孵化器全球人工智能界正上演投奔现象。Linux、红帽等国际顶尖社区,孕育ChatGPT的OpenAI及华为N思、百度飞桨等大厂社区,还有CSDN、和鲸等成熟或新型社区,都在赶往上海的路上,以实现团聚。伴随这一奔赴,多个知名开源软件背后“金主”Apache基金会,决定将在美国孵化9年的分布式分析型数据仓库落地上海,如此“墙内开花墙外香”,令业界嗅到风向。
孕育ChatGPT的OpenAI开源社区。
这一系列动态最终指向某个低调的存在。殊不知,上海已连续举办五届的世界人工智能大会(WAIC)旗下,还有一个“开发者生态”子品牌。今年,该平台厚积薄发,以“全球人工智能开发者先锋大会”全新IP破圈出道。
微软前CEO史蒂夫曾在公司大会上汗流浃背地连呼数遍“开发者”,以示他对开发者的珍惜热爱。
在AI技术开发迭代中,贡献代码、修改bug的开发者扮演着极关键角色,但他们的成长和激励需要“社区”提供动力。“社区”围绕开发者需求而建,提供包括知识更新、技术提升、行业方向把控、职业进阶拓展等一系列支持,如GitHub、开源中国等,都是国内外顶级的开源社区,汇聚了千万开发者。2019年底,上海将算法技术开发和开放社区建设作为AI布局关键环节,由市经信委、临港新片区管委会推动,华为、百度、腾讯云、微软亚洲研究院等15家领军企业联合启动“WAIC开发者生态”。此后,这一生态持续壮大,高频输出专属技术内容,举办沙龙峰会,提供人才推荐和资源对接。截至去年底,生态已辐射超百万名开发者。
在上海本土弹幕视频网B站上,亚马逊资深首席科学家李沐孜孜不倦地用中文同步他在斯坦福的新课《使用机器学习》,同时应45万粉丝之需,精讲AI论文。而此次先锋大会的开发者招募,也成为检验上海AI开发者生态氛围之尺。令主办方上海市人工智能行业协会秘书长钟俊浩颇吃惊的是,除数千名产业界技术大咖、代码牛人外,还有各高校教师和博士、研究生等4000余名,占比50%。受此鼓舞,上海AI开发者生态进一步提出“社区的社区”概念。钟俊浩说,目前全球尚无一个专门服务于AI开发者社区的组织,上海愿扛起大旗,促成跨社区团聚,并为社区做好项目、人才、技术、资金对接等各项支持。
李沐在B站,名为“跟李沐学AI”,他的课广受欢迎。
“能向全球亮出上海姿态与诚意,在于底气和火候,但这并非朝夕形成。”市经信委人工智能处处长王志佳说。
种子甚至早在20多年前就已埋下。“AI大神”李沐,来自上海交大ACM班,该班还走出了森亿智能和第四范式的CEO,还有流利说联合创始人胡哲人、依图科技创始人林晨曦、佐治亚理工大学助理教授杨笛一等。2002年,俞勇教授领受嘱托,创办以培养计算机科学家为目标的ACM班,更邀请由图灵奖获得者约翰・霍普克罗夫特领衔的“教授天团”执教。ACM班创办迄今,学生获得国内外荣誉奖项已达数百人次。但ACM班只是上海持续培育人才的缩影之一。上海AI人才已从2018年的10万增至去年底的23.5万人,在全国占比超过三成。
早在2002年,俞勇教授(右)率队夺得ACM竞赛总决赛首个冠军,打破了亚洲零纪录,(中)为后来的依图科技创始人林晨曦。
人才红利之外,还有场景杀手锏。2019年起,上海拿出首批包括“东海大桥无人集卡物流配送业务”在内的十大人工智能应用场景,让揭榜者感受上海AI产业触手可及的人间真实。迄今,上海已发布三批共计42个AI重大应用场景,如张江人工智能岛、临港数字孪生城等,这些顶级场景,带来了全球顶级的创新产品和解决方案。如今,在东海大桥与洋山港72公里物流环线间,5辆重卡队列已启动跟驰“减员化”运营测试,头尾两辆配有安全员,中间三辆真正空无一人,此景全球难觅。去年大上海保卫战,达闼、擎朗智能等千余台服务机器人落地各大方舱,真正跑通了规模化应用和系统化部署,引来国内外AI圈口口相传――唯独上海,把城市本身变成了AI产业最大的应用场景。
东海大桥无人集卡物流配送业务场景。
达闼机器人在方舱。
2014年,eBay研发大数据技术与应用产品团队一款数据分析软件成为了Apache基金会的顶级开源项目。迄今,该软件已服务欧美、中国、亚太超过两千家公司,估值30亿元。然而待收获时,基金会却毅然将项目迁到中国上海。同样让人“费解”的是微软,打破“一国一院”惯例,在北京和上海各设一亚洲研究院。还有国际AI界两大顶尖开源社区,将把两重磅项目托付上海……本月25日,“全球人工智能开发者先锋大会”在临港召开在即,而各种“千金难买我愿意”的故事才刚起头。