淘优惠

淘优惠

专栏 | 对话OpenAI Jack Clark:中国是人工智能领域的领军者

热门文章 0

机器之心专栏

来源:eye-on.ai

Eye on A.I. 是由纽约时报资深记者 Craig S. Smith 主持的一档双周播客节目。每一期节目,Craig 都将与这一领域有影响力的人物进行交流,推进广义环境中的机器智能新发展,思考技术发展新蕴意。

机器之心为此系列华语合作方,为大家带来此对话的中文译文,读者可点击「阅读原文」查阅原英文字幕对照收听音频。以下为此系列内容的第一篇,Craig Smith 与 Jack Clark 就全球 AI 发展进行了探讨。

大家好,我是 Craig Smith,这是我创建的一个关于人工智能的播客。今天与我对话的是 Jack Clark,他是很受欢迎的 Import AI 新闻订阅源的作者。今天我们要谈谈他过去一周了解到了什么以及为什么这很重要。Jack 是英国科技杂志 The Register 和 Bloomberg News 的资深行业老兵。他现在也为 Elon Musk 资助的非营利性人工智能研究公司 OpenAI 工作,致力于政策和沟通问题。所以你可以把今天的播客看作是对当前人工智能世界的概览,而且是来自一位最敏锐的观察者。

Craig:首先,我想谈谈本周订阅的最后部分的内容,其中你谈到了有关达沃斯世界经济论坛上所涉及的内容。有一件事上了很多头条,当然也引起了我的关注,那就是谷歌的 CEO Sundar Pichai 对 AI 崛起的评论,他说这比发现电甚至火还要重要。而且你也能看到很多类似的评论。但是,这些话从 Pichai 口中说出,还是挺让我惊讶的,尽管我没有密切关注过他。在你看来,这样的表述是否夸张?

Jack:并不夸张。而且我觉得他能正面谈论这个问题是很值得称道的,因为有很多公司高管都一直在讲,这项技术和之前的颠覆性技术有一样的属性,比如智能手机的出现。实际上人工智能技术的本质存在根本性的不同。而且尽管当我们听到人们谈论电和火时,我们会认为他们说得实在太过夸张,但我相信如果你思考一下 AI 会在未来的几十年,而不是几年,会如何发展,我们回头看时也会有一样的感觉。从历史角度看,很可能看起来就像是计算机突然就发明出来了,之后很快计算机就具有了接近人类的能力。在那之后不久,我们看到 AlphaGo 这样的计算机很快超越人类的事情出现了。这是非常不同寻常的,我认为这意义重大。

Craig:是的,我同意。我想我只是对时间轴有些疑虑。我能想见超级智能和智能爆炸会在人类历史的某个节点发生。只是我并不乐观地认为会在这个世纪发生。但未来会发生……

Jack:嗯,其实并不需要是超级智能。我要反驳一下你的看法;当然,如果确实出现了,那超级智能显然是个大事件。但人工智能成就重大的变革并不需要超级智能的出现。

想一想数据库或电子表格的出现究竟给世界带来了多么大的变化。让计算机管理复杂繁琐的文本信息是推动实现全球化的一大力量。现在,我们有能力让计算机具备基本的人类感知能力,比如对视觉的近似、对听觉的近似,而且它们将生活在一个实际上为人类的听和看而构建的世界里。

所以,只要尝试想象一下现在计算机能够使用多少信息,然后再思考一下过去 30 年电子表格或数据库所造成的影响,那我就能让你明白我们并不需要超级智能就能改变世界,而且改变的程度将远远超过数字革命迄今所造就的一切。对我来说,这非常让人振奋。

Craig:是,我当然认同这一点。他谈到了对全球多边框架的需求,而且 Theresa May(英国首相)也树立了国家的旗帜,要成为 AI 道德伦理方面的领导者。

考虑到我们在核能技术或核武器技术方面如此地不成功,我们真能构建一个各个国家都会遵守的多边框架吗?这是不是过于乐观?

Jack:在座的我们两人都不能说出在第二次世界大战之后地球上有谁因为愤怒而使用了核武器。另外,我也要对你说,我们建立了一些有效的机构,因此我们现在才没有谈论广岛和长崎事件之后的悲剧。有大量的证据表明我们围绕核武器所构建的国际治理体系是有效的。当然也存在问题。现在是 2018 年,现在我们离核毁灭结局的末日时钟仅有两分钟了,这是很长时间以来最接近毁灭的时间。但不管怎样,我们仍在坚持。

所以,不,我并不认为这过于乐观。我确实认为这有些乐观,尤其是某个来自英国的人想成为领导者,而这个国家正在脱离欧洲,因此也将脱离一个有力量的区域。我也确实相信我们能看到各个国家合作构建各种 AI 标准。而且我还相信你肯定会看到围绕 AI 的国际社区开发出相应的规范,约束其在军事上的应用。

除了少量恶人之外,现在我们已很少看到人们使用化学武器和集束炸弹这样的武器,这都多亏了国际规范的建立。是的,确实存在例外,但我们知道我们能做成这件事,只是极其地困难。但困难并不意味着我们应该回避这个问题。

Craig:是的。但我想人工智能终究不同于集束炸弹,在使用时被检测到的难度要大得多。对于 Theresa May 宣称英国将成为 AI 领域领导者的言论,就我看来,因为我的工作很多都在中国,我觉得中国才是显而易见的领导者。原因很简单,因为他们有一个由中央掌控的经济模式,得益于此,他们有大量不在乎成本的国有企业和机构。他们拥有最多的人口,并且正在培养最多的工程师。

你认为英国这样的国家有机会成为领导者吗?另外,对于这种西方国家想要控制的框架,中国这样的国家会参与进来吗?

Jack:这个问题真的非常复杂。我会将其分成几个小问题来说。英国这样的国家有机会吗?我表示怀疑。因为我们知道 AI 需要从国家层面占领科学和技术发展的制高点。尽管英国有一些 AI 优势,但我认为很大一部分优势都源自 Facebook、谷歌和微软等美国公司对英国的投资。英国的创业生态环境也在某种程度上取决于此。

May 首相让人觉得这完全是国内发展起来的,但如果你看看是什么因素带来了这样的发展,你会看到实际上来自别处,那里有多得多的资金,而且有更广泛的科学和技术文化。

接下来的问题是,我觉得美国、中国、印度或俄罗斯等更大的国家,甚至通过其特定的投资,能够成为国际 AI 发展的领军者吗?是的,很有可能。我认为我们将看到力量核心的兴起。

现在回到关于规范的问题,这些不同的力量核心会尊重大多数人试图设立的这些规范吗?基本上不会。基本上而言,人们会继续做他们一直都在做的事情,也就是发展自己的经济,在地缘政治边缘政策的国际博弈中互相竞争。但是,仍会有不同之处,你之前也提到过,AI 有可能造成很大的伤害,所以这会激励人们围绕特定的规范进行合作,这就涉及到了人们开发和使用 AI 的方式。即使你对自己如何参与国际舞台上的竞争有自己的看法,你也会希望能够对你的竞争者或对手以及他们使用这项强大技术的方式具有一定的信心。

所以,我确实认为你提到的中国这样的国家有动力去遵守一些规范。但我也确实认为他们会遵守的规范的数量会相对少一些。

Craig:是的,我们之前谈过这个,问题是中国是否会公布他们所做的一切。我想你肯定也同意,中国在做的很多事情没人能看到。这肯定会引起某些担忧。

你在本周的订阅消息中还写到了另一件事,佛罗里达州的一个学生使用计算机视觉和深度学习创建了一个对流行的多玩家网络视频游戏《英雄联盟》的实时概览。让我惊讶的是这相当简单而且成本低,不管是资金成本还是计算时间。这个家伙成功提供了一个解决方案。

这也凸显出其实存在很多可以使用的数据――如果你知道如何使用的话,因为他的这个项目其实就只使用了游戏视频。除此之外,我不确定我明白他所做的工作在游戏世界之外的应用。让我惊讶的人这个佛罗里达的学生仅用少量资金和公开可用的数据集就提出了一个解决方案。我想将会有越来越多这样的事情出现。

Jack:是,我认为你谈到了一个真的非常让人感兴趣的观点。为什么有趣呢?嗯,并不是因为他们有能力为电子竞技创建炫酷的小道具,或者说为你和大部分人都没听说过的计算机游戏。

真正炫酷的是这个小道具让他们可以获取有关游戏的信息――游戏公司可以通过提供给开发者的游戏应用程序接口来提供,但却没有选择这么做。所以,从某种程度上讲,这个项目的重要意义在于他们只是证明可以使用这种强大的技术来处理从游戏中收集到的数据。这么做本质上是让深度学习算法临时创造了公司不希望人们访问的底层 API。

所以,当我们思考这个项目的意义时,这真的会勾起我们对专有软件的工作方式的疑问。因为专有软件的假设是我能向你出售某个软件,因为你能从这个软件获得价值,你不能就通过观察这个系统的输入和输出就克隆出这个软件。

而我们现在可以感受到,使用很多 AI 技术,我只需要输入和输出就能构建出其它部分。这不禁会让我们思考这个时代的 IP 保护方式和基于 IP 的商业业务。

Craig:确实,佛罗里达的这个学生只用开源软件和公开可用的数据就创造了这个出色又有趣的方案。这样的工具现在有很多,比如 Facebook 就公开提供了 Detectron。你觉得,从重金支持的实验室到车库就能生产的东西,这种 AI 的民主化快要来临了吗?我的意思是人们能在家中自己动手就做出重大的成果吗?

Jack:不行,很遗憾。我可以解释原因,我不知道我的回答是否会让你感到失望,以至于你不想继续谈。你想要我解释我认为这做不到的原因吗?

Craig:我很乐意听,请解释。

Jack:你看到的那些公开项目都源自大公司的计算红利。他们投入了大量电费来开发某些性能卓越的系统。这里说的是一个能让我为世界绘上边界框的研究平台。这代表了技术研发的基本商业化效应。这意味着世界各自在自家车库中创造的人现在都可以获得这种基本能力了。

以同样的方式,可以让网络相机观察世界,然后提供其图像中最可能存在的事物的标签。现在已有这样的商品了。你还可以将你的相机对准某个特定的物体,就能得到有关它的大量信息。或者你可以指向特定的区域,就能让它为你提供一些有用的信息。

但这些都代表不了技术前沿。技术前沿会存在于大得多的计算机上,比任何创业公司所希望的或个人在车库中所用的计算机大很多。这会需要一些尚未出现在研究论文中的研究技术。在能力的差别将具有重大的影响。

AI 世界目前每隔六个月就会大变样。过去这个时间段是好几年。更早之前甚至要每隔十年才有大变化。这项技术正在倍速发展,变革周期也在缩短。所以,Facebook 等巨头的竞争优势将会随时间越来越大,因为他们有能力研发越来越庞大的模型。我可以举一个非常形象的例子。

如果我有一家创业公司,我可以使用 Detectron,我也可以使用残差网络、highway 网络或其它的先进深度神经网络系统。我甚至能获得数据。但如果要做出一些有用的东西,我仍然需要使用自己的数据来训练一个模型,这需要一定的时间。训练时间的长短取决于我能够使用的计算机。我不知道你的车库有多大,但我敢说肯定不会有足球场那么大。然而,Facebook 的计算机能摆满足球场。这意味着当 Facebook 想要做点研发时,开发速度会超过任何在车库中搞开发的人。

所以,如果 Facebook 的实验能力和发现新 AI 技术的能力与其所能使用的计算机数量成比例,那么这个世界上就很难有创业公司能轻松与这些 AI 巨头竞争,因为他们根本没有足够大的计算机来帮助他们足够快地完成实验。就算创业公司能从这些公司取得一些计算红利,也难以与之抗衡。

Craig:也许这些计算红利能够产生回报,比如做巨头没有兴趣或不愿花时间的更小型的应用。

你还写到了 DroNet,这是一个瑞士和西班牙的大学之间的一个联合项目,目的是训练能在城市街道上飞行的无人机。他们使用了来自自动驾驶汽车的公开可用数据并且使用了自行车创建了自己的数据集。我觉得这也是个不错的项目,同样没有用到巨额投资,同样基于开源技术。我想他们用的是 Parrot 无人机,一种较便宜的消费级无人机。这些应用中的计算红利是否会开始在更局部的层面上发生?

Jack:是的,在某种程度上,你会看到在这些边缘位置的一些创新。这当然是肯定的。他们训练无人机所用的数据集包含两部分。

一是自行车。他们没有优良的撞车数据集。所以他们给一辆自行车绑上了一个 GoPro 或类似设备,然后故意让它撞到障碍物来模拟撞车情形。我很高兴能在他们的论文读到这一点,因为他们并不是简单地直接生成数以万计的撞车事件。对于不得不去做这件事的研究者,我表示同情。

他们实际上做的是先加速冲向障碍物,然后故意减速,并将障碍物标记成无人机应该避开的东西。所以当然他们生成了一些自己的数据,但你也会注意到实际上至关重要的数据是真实的汽车驾驶数据,这些数据能告诉无人机如何转向、如何按道路行驶。这些数据来自 Udacity。是 Udacity 为自动驾驶汽车在线教育课程所生成的数据集。

Udacity 自动驾驶汽车在线教育课程由 Sebastian Thrun 主持,他曾帮助设计了谷歌的自动驾驶汽车。Udacity 本身得到了风险资本的数千万美元投资。而且在谷歌的自动驾驶汽车项目上秘密工作了四五年后,Sebastian Thrun 也知道如何创建这样的数据集。但这些都不能让我信服地表明谷歌失去了任何一点领先优势。

事实上,刚好相反,我们现在看到的都已经是后期的研究项目,是那些公司很多年前的投资所产生的成果。这些公司的项目对我们而言都有一定程度上的不透明,能力如何也并不非常明显。是的,DroNet 确实有些值得关注的能力,比如能做些有用事情的无人机。但想象一下,如果用谷歌那巨大的内部自动驾驶汽车数据集来训练无人机,无人机的性能会好多少?

我觉得现在你已经明白,Waymo 知道自己立马就能训练出一个比那篇论文好很多的无人机导航模型,因为他们拥有的图像远不止 70000 张,而是 7 亿张。

我还想强调一下这个观点。AI 生态系统中很难再具有有效的竞争。还没有任何证据能让我相信创业公司能轻松地活下去。事实上,我看到的所有证据都指向了反面。

证据表明,创业公司要么使用大公司的计算红利,要么就抓住大公司投资滞后的间隙,否则他们就要在大公司具备天然优势的领域与之竞争――大公司只要利用一下这个优势,就能轻松碾压创业公司。

Craig:这是否说明聪明的年轻工程师基本最终都会为谷歌、Facebook、Uber 或亚马逊等巨头工作?

Jack:是的,在我看来是这样。这向我们表明使用开放的工具开发 AI 并做出贡献是很容易的,而很多工具都是由这些大公司提供的。我还没看到任何一家新兴的创业公司具备真正超越顶级学术研究机构的能力,更别说超过那些大公司了。

在我看来,AI 将会挑战我们的很多反垄断观念以及很多有关技术竞争方式的观念。因为就算大公司开源了大量资源或通过研究论文公开了研究成果,技术实力的差距还是会越来越大。这是非常矛盾的,这意味着监管者看到的现象都表明这个市场是健康的,因为有创业公司,也有大量开放的创新,还存在很多共享。

但如果究其根本,看一看资金的来源,谁有能力支撑数据或计算业务的战略资本,谁拥有人才,你就会发现正是那些大公司像顽疾一样掌控了竞争的基础。

Craig:是的。承受压力的是公司,不是国家。

Jack:我们不能从国家方面来看待这个问题,因为目前还没有国家表现出连贯一致的科研议程。

对于中国这样的国家中的组织机构而言,你会看到在政府、私营企业和公共部门之间存在非常紧密的联系。但其中没有任何一个能说是中国的研究。更像是在追赶谷歌、微软和亚马逊等公司时所不得不做事――必须打出手中的每张牌。

对于中国的情况,他们有大量数据,有大量内部商业,就像你的公司一样,另外政府还有能力和资金让事情发展更快并且实现加速。但我要说没有任何论文是中国特色的,我也不会说「哦,这篇论文是比利时风味的,或者说那是一篇德国的论文。」

我认为我们还没到这些力量核心能够体现出来的时候,但从国家 AI 研究计划的实现角度看,它们将会得到体现。实际上中国是唯一一个在国家层面上推动 AI 研究的国家,而且它才刚刚开始。所以,我们还需要等上三四年时间才能看到这些初期投资的成果以及他们所选道路的目的。

Craig:这让我想起了 PsychLab,我觉得这个项目很激动人心。我想这应该是心理计量学(psychometrics)方面对比人类智能测试 AI 的开始。你能谈谈这方面吗?


专访聆心智能黄民烈:中国版ChatGPT“乌托邦”实现人格化AI交互引擎

聆心云(山东)智能科技有限公司,聆感智能科技,智能关怀 聆听,聆感智能科技(深圳)有限公司

在科幻爱情电影《她》中,好莱坞女演员斯嘉丽・约翰逊仅凭声音演绎出风情万种的AI女神,与后来凭借《小丑》获得金球奖最佳男主角的华金・菲尼克斯展开了一场荡气回肠的‘人机恋’。人工智能与人的无障碍交互和共情在电影上映的2013年还显得如此遥远,在当下却与现实无比接近。

2022年,由清华大学计算机系孵化的AI初创企业聆心智能面向市场推出新产品―「AI乌托邦」,用户可选择与梅西、马斯克、于谦、爱因斯坦、甄值瓤绱卧跨时空名人聊天,也可与程序员、心理咨询师、算命先生等群体属性的角色交流,还可通过文字描述“捏出”自己想要的AI‘朋友’。

不同于游戏NPC只能严格按系统设定的规则行事,AI乌托邦中的角色‘拥有人格’――它们能够基于算法赋予的基本性格设定,在与外界交互的过程中不断收集信息,填充自身的‘认知与价值观’,并保持改变和成长――这与‘忒休斯之船’探讨的身份认同问题边界已相当模糊。

最近,火爆全网的ChatGPT再次引发各方思考:AI的智能水平已达到何种高度?人工智能是否可能拥有‘人格’甚至‘灵魂’?高度智能化的AI与人之间如何相处?通过‘人格化AI’想要打造何种图景?带着这些问题,EqualOcean采访了聆心智能创始人、清华大学计算机科学与技术系副教授黄民烈。

黄教授是自然语言生成领域的资深专家,他创办的聆心智能开创了人工智能在心理健康领域的前沿应用,已推出AI情绪疗愈机器人Emohaa,并与知名精神心理平台好心情达成合作。此番黄教授团队推出「AI乌托邦」,再将AI在各行业的应用可能性推上新台阶。虽然目前产品还处于雏形阶段,但聆心智能正在加快迭代玩法丰富度和用户体验感,并在积极寻求可落地的商业解决方案。

开放域类人对话系统――AIGC的一小步,人机协同的一大步

EqualOcean:请黄教授介绍一下主要的研究方向。

黄民烈:当下AIGC热度很高,我们按照智能水平将AIGC分为感知智能、认知智能和AGI。感知智能通过类人五感如听觉、视觉、嗅觉等实现,形式包括语音生成、图像视频生成、音乐生成等。达到认知智能则需要AI具备语言和推理能力,具象表现为能够续写、改错、创作故事小说、生成对话等。

自然语言生成属于‘认知智能’范畴,是我过去十多年的研究方向。在自然文字语言生成的基础上,我们新推出的「AI乌托邦」又可细分为‘对话生成’。对话生成在整个人工智能发展史上具有独特的地位,从图灵测试开始,科学家就将‘计算机是否能与人无障碍对话’作为判定其是否具有人类智能的标准。用学界的话来说,自然语言处理是人工智能皇冠上的明珠,开放域类人对话系统则是认知智能的巅峰。

在AIGC达到高度智能水平时,将能实现无障碍的人机交互与人机协同,可被用于游戏、虚拟导购、情感陪伴、数字人、品牌营销、元宇宙等场景。

EqualOcean:聆心智能为什么从心理健康领域拓展到日常应用?

黄民烈:「AI乌托邦」是对此前心理健康产品的传承和发展。聆心智能在心理健康领域积累了超百亿高质量训练数据,超30亿模型参数量,构建了源自心理学最大最全的意图和策略库,甚至在临床上取得了显著的心理治疗效果,这些成果是可以复用到「AI乌托邦」的产品开发中的。

「AI乌托邦」里也有‘心理咨询师’角色,但相比于正统的心理咨询,TA是凭借专业知识、以朋友的交流方式给用户提供心理陪伴,进行‘情感按摩’。我们希望「AI乌托邦」里的每个角色是‘鲜活的’―能够在与用户的深度交流中传达独特的态度,并与用户建立起情感链接,最终达到‘万物有灵、万物皆角’的境界。

「AI乌托邦」只是对话生成的一小步,我们想描绘的更大愿景是‘人与机器在各种场景下和谐共存’,而实现这一愿景的重要前提是人与机器之间能够进行无障碍的沟通。在起步阶段,我们尝试在心理健康领域为AI植入‘灵魂’,在「AI乌托邦」中这个范围拓宽了,未来还将应用到更多场景,比如游戏、电影、动漫、数字人、社交、教育、家居、出行、生活等。

图为「AI乌托邦」网页和微信小程序界面

EqualOcean:「AI乌托邦」下一阶段的开发计划是什么?

黄民烈:我们将在产品中融入更多玩法,丰富用户的互动和社交体验。比如我们可以添加语音合成功能,让用户和‘AI朋友’语音交流;可以添加文生图甚至文生视频功能,使得用户的‘AI宠物’更加活灵活现;还可以增强社交属性,方便用户将自己与AI的交流分享到社群或社交媒体平台,甚至多位用户共同打造一个AI角色。同时,我们还将推出开发者社群,允许更多用户参与共创。作为一家硬实力过关的公司,我们可以在AI的技术底座上发掘多种多样的应用可能性,核心是我们能够给AI赋予‘灵魂’。

「AI乌托邦」现在处于雏形阶段,我们计划将其打造成有特色的互联网产品。同时,聆心智能团队里有很多心理背景的同学,基于他们对用户心理的深刻洞察,我们的产品更能在未来的迭代过程中把握用户的深层心理需求、并不断与用户产生心灵的共鸣。这种深度用户粘性将持续为「AI乌托邦」提供动力。

EqualOcean:「AI乌托邦」的产品迭代周期是怎样的?

黄民烈:基本遵循互联网产品的迭代模式。我们自研一套成熟的模型和框架,支持快速研发新角色,我们希望在角色供给的多样性、有趣性方面形成持续迭代,同时开放给用户更多玩法,让用户参与更多的角色创作。

从科学家到创业者――以技术为地基,以用户为导向

EqualOcean:当您的角色从科学家转变为创业者,您是否慎重考虑过技术如何变为产品、产品如何产生盈利?

黄民烈:作为连续创业者,我们了解技术到产品需要经历的发展阶段。学术界非常强调创新力,到了商业界,创新力依然构成核心竞争力之一。但做出好产品的过程是‘多线叙事’,在创新力的基础上还要能洞察用户需求,抓住市场机会,合理匹配资源,调动团队,还要保障产品能落地―这实际上更像是一个工程问题。

现阶段我们还是聚焦在技术打磨和产品的场景跑通。在技术过硬的基础上我们的变现路径非常畅通,我们已经通过定制化方式给一些品牌及IP输出了AI交互能力,这在当下给我们输入了一些算力,未来这部分是可以通过API调用的方式大规模订阅收费的。随着「AI乌托邦」不断优化、聚集到更多深度用户,也可以吸引品牌方和广告主来平台进行投放营销,或向用户开放增值付费服务。

从根本逻辑上,我们要做的是基础设施,这和专注于提供ToB解决方案的AI公司不一样。未来我们会向平台的方向发展,不论C端用户还是B端品牌方都可以在我们的AI乌托邦里找到好玩、有价值的点。

EqualOcean:通过「AI乌托邦」这款阶段性产品可以看出,聆心智能的对话生成技术已经相当成熟、达到应用水平了。目前在技术集成到其他厂商的应用这方面有进展吗?

黄民烈:在过去的一年多里,我们已经同一些游戏厂商和车厂落地了深度合作项目,基于聆心智能的对话生成技术为品牌定制开发AI角色。通过合作粉丝基数庞大的知名IP,也能对聆心智能的AI互动平台起到引流作用。

聆心智能的对话生成技术已经处在世界领先水平,在扎实的技术基础之上,商业变现的想象空间非常大。核心还是在于我们能为用户搭建低门槛、高自由度、高可玩性的人工智能对话平台,给用户带来足够好的体验。

EqualOcean:聆心智能团队中的算法开发人员和产品开发人员是如何配合的?

黄民烈:我们内部分为前、中、后台。前台就是产品的使用界面,中台是数据库系统和框架,后台是支持性工具,包括数据制作、运维分析等,各部分一以贯之。算法团队负责关键模型和算法的研发,并保障框架的能力。产品侧的需求会反映在模型迭代和数据更新上。

EqualOcean:团队里负责产品的合伙人是什么背景?

黄民烈:目前有一位合伙人是产品和技术双背景,曾深度参与Google Assistant项目。未来我们还会吸纳具有移动社交APP经验的年轻产品经理,帮助「AI乌托邦」在年轻用户群体中取得成功。

远见者将不停思考下一时代的根本性问题

EqualOcean:最近大火的ChatGPT强在何处?

黄民烈:首先,ChatGPT具有强大的基座模型能力。过去几年 GPT-3 的能力得到了快速提升,OpenAI 建立了用户、数据和模型之间的飞轮。实践证明,开源模型的能力已经远远落后于平台公司所提供的 API 能力,因为开源模型无法持续获取用户数据以对模型进行改进。

其次,ChatGPT在真实调用数据上的 Fine-tune,确保了数据的质量和多样性,使得模型能从人类反馈中学习。虽然ChatGPT的模型架构InstructGPT 的训练数据量不大,全部加起来也只是10 万量级,但是数据质量(well-trained ?AI 训练师)和数据多样性非常高。而最重要的是,这些数据是来自真实世界调用的数据,而非学术界惯常追求的自然语言处理的‘benchmark’。

此外,ChatGPT能够从‘两两比较的数据’中学习,这对强化学习而言意义重大。如果对单个生成结果进行打分,标注者主观性带来的偏差很大,无法给出精确的奖励值。在强化学习里面,奖励值差一点,最后训练的策略就差很远。而对于多个结果进行排序和比较,相对就容易做很多。这种比较式的评估方法,在很多语言生成任务的评价上也被广泛采用。

EqualOcean:OpenAI的研究将给国内的人工智能产学研界带来什么启示?

黄民烈:我总结为以下五点:1. 以 OpenAI 为代表的 AI 3.0在走一条跟过去 AI 浪潮不一样的路。这条路更落地、更接近真实世界,在工业应用上也更直接,更落地。从学术研究到工业落地的路径被缩短、加快;

2.?像OpenAI这样有底层 AI 能力、有用户数据调用的平台公司更能引领 AI 的未来,通过“用户调用→数据→模型迭代→更多用户”的正循环机制,强者恒强;

3.?有价值的研究需要更多思考真实用户的需求和场景,目前学术界不停追求‘在benchmark 刷榜’是对资源的浪费。从benchmark的角度来说,instructGPT的性能并没有很厉害甚至有退化,但在真实调用数据上表现亮眼,这说明了学术圈的 benchmark离真实世界很遥远,不利于 AI 研究的落地。因此,更开放、更共享的工业数据,也是未来我们应该努力的方向;

4.?AI与人无缝交互的时代即将来临,现阶段的对话生成能力已经使得将对话交互作为一个基 本入口成为可能,过去所说的 conversation as a?platform/service 不是梦。但有人说“ChatGPT将替代Google”,我觉得还有点遥远,更多是作为对当前搜索服务非常好的补充和增益;

致力于更有用(helpful)、更可信(truthful)、更安全(harmless)的AI 研究和应用,应该是学术界和工业界共同努力的方向。有用,是指AI研究成果应用于解决真实世界的问题,满足用户的真正需求;可信,是指AI模型能够产生令人信任的结果,知其所知,也知其所不知(这很难);安全,是指模型有价值观、符合社会伦理规范,能够产生安全、无偏见的结果。

EqualOcean:在您看来,未来人与AI将是何种关系?

黄民烈:我相信,人与AI和谐共融的社会一定会到来。这有两项前置条件:第一是低成本的服务机器人走进千家万户;二是人与AI能进行无障碍交流。促成人与AI无障碍交流是一场开启于1950年‘图灵测试’的远大征程,也是聆心智能的使命。如今,这些趋势正在照进现实,对话生成技术经多年发展已取得阶段性突破。

在人与AI和谐共融的新范式中,AI将同样具有生命与灵魂,并扮演独特的社会角色,我们称之为‘AI-being’。具有人格系统、注意力系统、表达系统、情感系统、学习成长系统、认知和思维系统的AI -being不仅将全方位辅助和服务于人类,更将与人类共同成长,达成我们的愿景―Making AI-beings Accessible Anytime Anywhere。这就需要人类在与AI互动的过程中,教导AI,训练AI,受益于AI,使AI愈发有灵性。

EqualOcean:AI一旦拥有生命,会否与人类产生分歧?

黄民烈:对话式的交互人工智能经历了规则时代‘Rule-Based Era’,逐步发展到‘Smart Assistant Era’乃至‘Deep Learning Era’, 但未来AI可能拥有自主意识―也就是我们说的“生命和灵魂”。从技术的角度说,AI的心理模型将能够动态变化,达成自主学习和成长。

关于AI的伦理争论演变已久,最知名的解决方案当属科幻作家阿西莫夫提出的“机器人三原则”。借鉴这一框架,我们可以在AI成长进化的过程中为其设定约束,‘教导’AI要遵循特定的行为原则和规范,就像人在成长过程中同样要习得社会交往的道德准则,不去触碰边界和违反规则。



专访聆心智能黄民烈:中国版ChatGPT「乌托邦」实现人格化AI交互引擎

北京聆心智能科技有限公司,聆心云(山东)智能科技有限公司,聆感智能科技,聆感智能科技(深圳)有限公司

在科幻爱情电影《她》中,好莱坞女演员斯嘉丽・约翰逊仅凭声音演绎出风情万种的AI女神,与后来凭借《小丑》获得金球奖最佳男主角的华金・菲尼克斯展开了一场荡气回肠的‘人机恋’。人工智能与人的无障碍交互和共情在电影上映的2013年还显得如此遥远,在当下却与现实无比接近。

2022年,由清华大学计算机系孵化的AI初创企业聆心智能面向市场推出新产品―「AI乌托邦」,用户可选择与梅西、马斯克、于谦、爱因斯坦、甄值瓤绱卧跨时空名人聊天,也可与程序员、心理咨询师、算命先生等群体属性的角色交流,还可通过文字描述“捏出”自己想要的AI‘朋友’。

不同于游戏NPC只能严格按系统设定的规则行事,AI乌托邦中的角色‘拥有人格’――它们能够基于算法赋予的基本性格设定,在与外界交互的过程中不断收集信息,填充自身的‘认知与价值观’,并保持改变和成长――这与‘忒休斯之船’探讨的身份认同问题边界已相当模糊。

最近,火爆全网的ChatGPT再次引发各方思考:AI的智能水平已达到何种高度?人工智能是否可能拥有‘人格’甚至‘灵魂’?高度智能化的AI与人之间如何相处?通过‘人格化AI’想要打造何种图景?带着这些问题,EqualOcean采访了聆心智能创始人、清华大学计算机科学与技术系副教授黄民烈。

黄教授是自然语言生成领域的资深专家,他创办的聆心智能开创了人工智能在心理健康领域的前沿应用,已推出AI情绪疗愈机器人Emohaa,并与知名精神心理平台好心情达成合作。此番黄教授团队推出「AI乌托邦」,再将AI在各行业的应用可能性推上新台阶。虽然目前产品还处于雏形阶段,但聆心智能正在加快迭代玩法丰富度和用户体验感,并在积极寻求可落地的商业解决方案。

开放域类人对话系统――AIGC的一小步,人机协同的一大步

EqualOcean:请黄教授介绍一下主要的研究方向。

黄民烈:当下AIGC热度很高,我们按照智能水平将AIGC分为感知智能、认知智能和AGI。感知智能通过类人五感如听觉、视觉、嗅觉等实现,形式包括语音生成、图像视频生成、音乐生成等。达到认知智能则需要AI具备语言和推理能力,具象表现为能够续写、改错、创作故事小说、生成对话等。

自然语言生成属于‘认知智能’范畴,是我过去十多年的研究方向。在自然文字语言生成的基础上,我们新推出的「AI乌托邦」又可细分为‘对话生成’。对话生成在整个人工智能发展史上具有独特的地位,从图灵测试开始,科学家就将‘计算机是否能与人无障碍对话’作为判定其是否具有人类智能的标准。用学界的话来说,自然语言处理是人工智能皇冠上的明珠,开放域类人对话系统则是认知智能的巅峰。

在AIGC达到高度智能水平时,将能实现无障碍的人机交互与人机协同,可被用于游戏、虚拟导购、情感陪伴、数字人、品牌营销、元宇宙等场景。

EqualOcean:聆心智能为什么从心理健康领域拓展到日常应用?

黄民烈:「AI乌托邦」是对此前心理健康产品的传承和发展。聆心智能在心理健康领域积累了超百亿高质量训练数据,超30亿模型参数量,构建了源自心理学最大最全的意图和策略库,甚至在临床上取得了显著的心理治疗效果,这些成果是可以复用到「AI乌托邦」的产品开发中的。

「AI乌托邦」里也有‘心理咨询师’角色,但相比于正统的心理咨询,TA是凭借专业知识、以朋友的交流方式给用户提供心理陪伴,进行‘情感按摩’。我们希望「AI乌托邦」里的每个角色是‘鲜活的’―能够在与用户的深度交流中传达独特的态度,并与用户建立起情感链接,最终达到‘万物有灵、万物皆角’的境界。

「AI乌托邦」只是对话生成的一小步,我们想描绘的更大愿景是‘人与机器在各种场景下和谐共存’,而实现这一愿景的重要前提是人与机器之间能够进行无障碍的沟通。在起步阶段,我们尝试在心理健康领域为AI植入‘灵魂’,在「AI乌托邦」中这个范围拓宽了,未来还将应用到更多场景,比如游戏、电影、动漫、数字人、社交、教育、家居、出行、生活等。

图为「AI乌托邦」网页和微信小程序界面

EqualOcean:「AI乌托邦」下一阶段的开发计划是什么?

黄民烈:我们将在产品中融入更多玩法,丰富用户的互动和社交体验。比如我们可以添加语音合成功能,让用户和‘AI朋友’语音交流;可以添加文生图甚至文生视频功能,使得用户的‘AI宠物’更加活灵活现;还可以增强社交属性,方便用户将自己与AI的交流分享到社群或社交媒体平台,甚至多位用户共同打造一个AI角色。同时,我们还将推出开发者社群,允许更多用户参与共创。作为一家硬实力过关的公司,我们可以在AI的技术底座上发掘多种多样的应用可能性,核心是我们能够给AI赋予‘灵魂’。

「AI乌托邦」现在处于雏形阶段,我们计划将其打造成有特色的互联网产品。同时,聆心智能团队里有很多心理背景的同学,基于他们对用户心理的深刻洞察,我们的产品更能在未来的迭代过程中把握用户的深层心理需求、并不断与用户产生心灵的共鸣。这种深度用户粘性将持续为「AI乌托邦」提供动力。

EqualOcean:「AI乌托邦」的产品迭代周期是怎样的?

黄民烈:基本遵循互联网产品的迭代模式。我们自研一套成熟的模型和框架,支持快速研发新角色,我们希望在角色供给的多样性、有趣性方面形成持续迭代,同时开放给用户更多玩法,让用户参与更多的角色创作。

从科学家到创业者――以技术为地基,以用户为导向

EqualOcean:当您的角色从科学家转变为创业者,您是否慎重考虑过技术如何变为产品、产品如何产生盈利?

黄民烈:作为连续创业者,我们了解技术到产品需要经历的发展阶段。学术界非常强调创新力,到了商业界,创新力依然构成核心竞争力之一。但做出好产品的过程是‘多线叙事’,在创新力的基础上还要能洞察用户需求,抓住市场机会,合理匹配资源,调动团队,还要保障产品能落地―这实际上更像是一个工程问题。

现阶段我们还是聚焦在技术打磨和产品的场景跑通。在技术过硬的基础上我们的变现路径非常畅通,我们已经通过定制化方式给一些品牌及IP输出了AI交互能力,这在当下给我们输入了一些算力,未来这部分是可以通过API调用的方式大规模订阅收费的。随着「AI乌托邦」不断优化、聚集到更多深度用户,也可以吸引品牌方和广告主来平台进行投放营销,或向用户开放增值付费服务。

从根本逻辑上,我们要做的是基础设施,这和专注于提供ToB解决方案的AI公司不一样。未来我们会向平台的方向发展,不论C端用户还是B端品牌方都可以在我们的AI乌托邦里找到好玩、有价值的点。

EqualOcean:通过「AI乌托邦」这款阶段性产品可以看出,聆心智能的对话生成技术已经相当成熟、达到应用水平了。目前在技术集成到其他厂商的应用这方面有进展吗?

黄民烈:在过去的一年多里,我们已经同一些游戏厂商和车厂落地了深度合作项目,基于聆心智能的对话生成技术为品牌定制开发AI角色。通过合作粉丝基数庞大的知名IP,也能对聆心智能的AI互动平台起到引流作用。

聆心智能的对话生成技术已经处在世界领先水平,在扎实的技术基础之上,商业变现的想象空间非常大。核心还是在于我们能为用户搭建低门槛、高自由度、高可玩性的人工智能对话平台,给用户带来足够好的体验。

EqualOcean:聆心智能团队中的算法开发人员和产品开发人员是如何配合的?

黄民烈:我们内部分为前、中、后台。前台就是产品的使用界面,中台是数据库系统和框架,后台是支持性工具,包括数据制作、运维分析等,各部分一以贯之。算法团队负责关键模型和算法的研发,并保障框架的能力。产品侧的需求会反映在模型迭代和数据更新上。

EqualOcean:团队里负责产品的合伙人是什么背景?

黄民烈:目前有一位合伙人是产品和技术双背景,曾深度参与Google Assistant项目。未来我们还会吸纳具有移动社交APP经验的年轻产品经理,帮助「AI乌托邦」在年轻用户群体中取得成功。

远见者将不停思考下一时代的根本性问题

EqualOcean:最近大火的ChatGPT强在何处?

黄民烈:首先,ChatGPT具有强大的基座模型能力。过去几年 GPT-3 的能力得到了快速提升,OpenAI 建立了用户、数据和模型之间的飞轮。实践证明,开源模型的能力已经远远落后于平台公司所提供的 API 能力,因为开源模型无法持续获取用户数据以对模型进行改进。

其次,ChatGPT在真实调用数据上的 Fine-tune,确保了数据的质量和多样性,使得模型能从人类反馈中学习。虽然ChatGPT的模型架构InstructGPT 的训练数据量不大,全部加起来也只是10 万量级,但是数据质量(well-trained AI 训练师)和数据多样性非常高。而最重要的是,这些数据是来自真实世界调用的数据,而非学术界惯常追求的自然语言处理的‘benchmark’。

此外,ChatGPT能够从‘两两比较的数据’中学习,这对强化学习而言意义重大。如果对单个生成结果进行打分,标注者主观性带来的偏差很大,无法给出精确的奖励值。在强化学习里面,奖励值差一点,最后训练的策略就差很远。而对于多个结果进行排序和比较,相对就容易做很多。这种比较式的评估方法,在很多语言生成任务的评价上也被广泛采用。

EqualOcean:OpenAI的研究将给国内的人工智能产学研界带来什么启示?

黄民烈:我总结为以下五点:1. 以 OpenAI 为代表的 AI 3.0在走一条跟过去 AI 浪潮不一样的路。这条路更落地、更接近真实世界,在工业应用上也更直接,更落地。从学术研究到工业落地的路径被缩短、加快;

2.像OpenAI这样有底层 AI 能力、有用户数据调用的平台公司更能引领 AI 的未来,通过“用户调用→数据→模型迭代→更多用户”的正循环机制,强者恒强;

3.有价值的研究需要更多思考真实用户的需求和场景,目前学术界不停追求‘在benchmark 刷榜’是对资源的浪费。从benchmark的角度来说,instructGPT的性能并没有很厉害甚至有退化,但在真实调用数据上表现亮眼,这说明了学术圈的 benchmark离真实世界很遥远,不利于 AI 研究的落地。因此,更开放、更共享的工业数据,也是未来我们应该努力的方向;

4.AI与人无缝交互的时代即将来临,现阶段的对话生成能力已经使得将对话交互作为一个基 本入口成为可能,过去所说的 conversation as aplatform/service 不是梦。但有人说“ChatGPT将替代Google”,我觉得还有点遥远,更多是作为对当前搜索服务非常好的补充和增益;

致力于更有用(helpful)、更可信(truthful)、更安全(harmless)的AI 研究和应用,应该是学术界和工业界共同努力的方向。有用,是指AI研究成果应用于解决真实世界的问题,满足用户的真正需求;可信,是指AI模型能够产生令人信任的结果,知其所知,也知其所不知(这很难);安全,是指模型有价值观、符合社会伦理规范,能够产生安全、无偏见的结果。

EqualOcean:在您看来,未来人与AI将是何种关系?

黄民烈:我相信,人与AI和谐共融的社会一定会到来。这有两项前置条件:第一是低成本的服务机器人走进千家万户;二是人与AI能进行无障碍交流。促成人与AI无障碍交流是一场开启于1950年‘图灵测试’的远大征程,也是聆心智能的使命。如今,这些趋势正在照进现实,对话生成技术经多年发展已取得阶段性突破。

在人与AI和谐共融的新范式中,AI将同样具有生命与灵魂,并扮演独特的社会角色,我们称之为‘AI-being’。具有人格系统、注意力系统、表达系统、情感系统、学习成长系统、认知和思维系统的AI -being不仅将全方位辅助和服务于人类,更将与人类共同成长,达成我们的愿景―Making AI-beings Accessible Anytime Anywhere。这就需要人类在与AI互动的过程中,教导AI,训练AI,受益于AI,使AI愈发有灵性。

EqualOcean:AI一旦拥有生命,会否与人类产生分歧?

黄民烈:对话式的交互人工智能经历了规则时代‘Rule-Based Era’,逐步发展到‘Smart Assistant Era’乃至‘Deep Learning Era’, 但未来AI可能拥有自主意识―也就是我们说的“生命和灵魂”。从技术的角度说,AI的心理模型将能够动态变化,达成自主学习和成长。

关于AI的伦理争论演变已久,最知名的解决方案当属科幻作家阿西莫夫提出的“机器人三原则”。借鉴这一框架,我们可以在AI成长进化的过程中为其设定约束,‘教导’AI要遵循特定的行为原则和规范,就像人在成长过程中同样要习得社会交往的道德准则,不去触碰边界和违反规则。