AI周报｜“光子是深度学习的未来”；刷手机被 AI 公开点名，再也不能摸鱼了；OpenAI 雄心勃勃的机器人计划失败了（7.12-7.18）

热门文章 2023-02-13 20:28:49 0

淘宝搜：【天降红包222】领超级红包，京东搜：【天降红包222】
淘宝互助，淘宝双11微信互助群关注公众号【淘姐妹】

光子ai量化,量子ai技术,智能光子学,光学人工智能

导读：西雅图华盛顿大学医学院蛋白质设计研究所的研究人员，研发出一款新的深度学习工具 RoseTTAFold，不仅拥有媲美 AlphaFold2 的蛋白质结构预测超高准确度，而且更快、所需计算机处理能力更低，更重要的是，RoseTTAFold 完全免费！

1. Science：媲美 AlphaFold2 的蛋白质结构预测新工具问世，一台游戏计算机十分钟出结果，完全免费

蛋白质作为构成人体组织器官的支架和主要物质，在人体生命活动中起着重要作用。2020 年，DeepMind 在第 14 届 “蛋白质结构预测关键评估”（CASP14）大赛中展示了轰动一时的相关成果 ――AlphaFold2，当时，该技术预测蛋白质结构的准确度排名第一。现在，西雅图华盛顿大学医学院蛋白质设计研究所的研究人员，研发出一款新的深度学习工具 RoseTTAFold，不仅拥有媲美 AlphaFold2 的蛋白质结构预测超高准确度，而且更快、所需计算机处理能力更低，更重要的是，RoseTTAFold 完全免费！

在此次的新研究中，华盛顿大学医学院生物化学系教授、蛋白质设计研究所所长 David Baker 领导一支计算生物学家团队，成功开发一款名为 RoseTTAFold 的工具，基于深度学习，能够根据有限的信息快速准确地预测出目标蛋白质的结构，达到与 AlphaFold2 不相上下的准确度。

不仅如此，RoseTTAFold 所需的计算耗能与计算时间均比 AlphaFold2 还要低：仅用一台游戏计算机，在短短十分钟内就可以可靠地计算出蛋白质结构。更值得注意的是，RoseTTAFold 的代码和服务器完全免费提供给科学界！自 7 月以来，相关程序已被 140 多个独立科研团队从 GitHub 免费下载，来自世界各地的科学家现在正在使用 RoseTTAFold 来构建蛋白质模型，以加速相关领域的研究。因此可以说，RoseTTAFold 不仅仅是 “免费版” 的 AlphaFold2，更是该技术领域推翻 “前浪” 的那一股 “后浪”。

内容来源：

2. 谷歌量子计算团队再发 Nature！逻辑错误抑制实现 100 倍增长，或为容错量子计算机研发铺平道路

量子计算机最突出的优势是可以对数据进行同时处理计算，但其发展瓶颈也很明显，例如目前量子比特数不够多，纠错容错技术也有待完善，这些因素都大大限制了量子计算的普及实用。因此，包括各国工业界、学术界和国家实验室的科研人员都在寻求减少量子计算机错误的方法。

近日，谷歌量子人工智能（Google AI Quantum）团队的一篇论文再次刊登在 Nature 杂志上，研究人员基于谷歌量子处理器 “悬铃木”（Sycamore）实现了量子计算错误抑制的指数级增长。

研究数据表明，研究人员将重复码基于的量子比特数量从 5 个提高到 21 个，对逻辑错误的抑制实现了最多 100 倍的指数级增长，这种错误抑制能力在 50 次纠错实验中均表现稳定，或为可推进容错量子计算机的研发铺平道路。尽管实验中提及的错误率还没达到实现量子计算机潜力的阈值，但这一研究成果已经证明了量子纠错（quantum error-correction，QEC）可以成功将错误率控制在一定范围内。研究人员认为 “悬铃木” 架构或已逼近这一阈值，结果令人振奋。

内容来源：

3. NTT 高级科学家：光子是深度学习的未来！光子有望替代电子计算机加速神经网络计算

近日，来自日本 NTT 研究所的高级科学家 Ryan Hamerly 在 IEEE Spectrum 上发表了一篇文章（“The Future of Deep Learning Is Photonic”），谈论了光学计算在未来的强大潜力。他解释了为何光学计算会降低神经网络计算的能耗，以及光子设备取代电子设备的可能。

可以肯定的是，数字电子计算机的进步促进了深度学习的蓬勃发展，但这并不意味电子计算机是执行神经网络计算的唯一机器。但现在也许是再次使用模拟计算机的好时机，尤其是当模拟计算可以通过光学的方式来完成时。光数据通信速度更快，能耗也更低。光学计算也有同样的优势。

传统的计算机是基于晶体管，而晶体管是高度非线性的电路元件 ―― 这意味着它们的输出不仅与输入成正比，至少在用于计算时是这样。非线性决定了晶体管的开关，使得它们可以被塑造成逻辑门电路。这种切换很容易用电子设备来完成，所以电子设备的非线性十分重要。但光子遵循的是麦克斯韦方程，是线性的，这就意味着光学设备的输出通常与其输入成正比。

在计算机的架构方面，光学研究人员还有许多其他问题要解决。但可以肯定的是，至少在理论上，光学有希望将深度学习的发展加速几个数量级。基于当前可用于各种组件（光调制器、检测器、放大器、模数转换器）的技术，我们有理由相信，神经网络计算的能源效率可以比当今的电子处理器提高 1,000 倍。如果用新兴的光学技术作出更激进的假设，神经网络计算的能源效率甚至可能提高一百万倍。而且，由于电子处理器的功率有限，这些能源效率的进步很可能会转化为相应的速度改进。

内容来源：

4. 快手八卦！突破 TensorFlow、PyTorch 并行瓶颈的开源分布式训练框架来了！

随着摩尔定律的失效，单个计算单元的能力已经远远无法满足数据的指数级增长。比如，快手每天上传的新视频超过千万条，即便训练简单的分类模型（比如 ResNet），使用单机单卡的算力，训练快手日内新增视频都需要超过一百天的时间。因此，在数据爆炸性增长的互联网行业，多机多卡的并行训练成为了大数据时代的必然。随着深度学习模型功能的日益强大，分布式训练任务的通信成本和所需算力也随之急剧增长。

然而，由于多机多卡并行带来的额外通讯成本，加速比（speedup）经常让大家失望，从而形成了大厂 “堆资源”，没资源的 “干瞪眼” 的局面。比如，Google 的 Downpour 框架使用 80 个 GPU 训练 ImageNet，加速比却只有 12/80=15%。因此如何提升多机多卡中训练的通讯效率成为了并行训练乃至解决数据爆炸性增长的核心问题之一。

现有的深度学习开源框架（PyTorch，TensorFlow）主要针对系统层面优化，把已有的单机单卡优化算法扩展到多机多卡的场景。虽然系统层面的优化使得并行效率不断提升，但是边际效益却越来越明显。针对这个问题，快手和苏黎世理工（ETH Zürich）联合开发了一款名为 “Bagua” 的分布式训练框架，突破单纯的系统层面优化，专门针对分布式的场景设计特定的优化算法，实现算法和系统层面的联合优化，极致化分布式训练的效率。用户只需要添加几行代码，便能把单机单卡训练扩展到多机多卡训练并得到非常可观的加速比。

内容来源：

5. MobiSys 2021 Best Paper | 可高效、准确地预测模型推理时间的系统 nn-Meter

深度神经网络（DNN）模型在实际部署中的延迟（推理时间）是决定模型是否可用的一个重要指标。然而，模型设计过程中对数以亿计的设计选项进行实际的部署和延迟评估会造成巨大的开销。因此，如何进行高效、准确的模型运行延迟预测对模型的设计至关重要。但现有技术缺乏对部署平台优化策略的理解以及对灵活多变模型架构的泛化性，所以无法做到准确的模型推理时间预测。

针对上述问题，微软亚洲研究院异构计算组的研究员们提出并开发了 nn-Meter 模型推理时间预测系统。该系统可高效、准确地预测 DNN 模型在不同边缘设备上的推理延迟，其关键思想是将整个模型划分为内核（kernel），即设备上的执行单元，然后执行内核级预测。

相关论文 “nn-Meter: Towards Accurate Latency Prediction of Deep-Learning Model Inference on Diverse Edge Devices” 荣获了 MobiSys 2021 大会的最佳论文奖（Best Paper），并且是本届大会唯一一篇获得了 Artifact Evaluation 全部三个最高级别徽章（即代码可评估、代码可获取和实验结果可复制）的论文。

内容来源：

1. 11 位科学家眼中的 WAIC：当科学家开始关注市场

“阳春白雪的东西变少了，烟火气变重了。” 这是今年与会者参加世界人工智能大会（WAIC）最直观的感受。而从科学家的角度，这种 “阳春白雪” 和 “烟火气” 的碰撞则有着更深的含义。在 AI 从理论研究、应用技术到产业化推广的产业链条中，科学家居于最上游的位置。但近年来，越来越多的科学家从从学术界转向产业界。如何从产业界的角度思考问题，则是他们需要做出的最大改变。而作为产业大会的 WAIC，正是检验这种改变的试金石。

在人工智能领域在大数据、大算力、大模型等领域的研究进展依然令人印象深刻，但在 WAIC 上，这种 “科技” 正在转化为 “技术”，科技公司们也俯下身段，以更接地气的方式，来讲解其技术对日常生活潜移默化的改变。

当大数据、大算力、大模型为代表的 AI 发展到了一定程度，反而使得人们难以察觉这当中的变化；而科技公司在 AI 基础设施建设上的下沉、AI 与产业的进一步结合，这也正是在这届 WAIC 上，观众感觉炫的技术和应用少了的原因。这也是 AI 发展的一个新阶段：如果说几届 WAIC 上，AI 更多的是一种 “自上而下” 的驱动范式，通过酷炫的研究成果，拉动普通用户对 AI 的关注；而这届 WAIC 更多的是从应用出发的、“自下而上” 的推动方式。

这也给科学家们提出了新的问题：他们所关注的，不仅仅是人工智能从感知走向决策在研究方法上的改变，更要关注这种驱动范式的转换对他们研究价值评判所造成的影响。当科学家开始关注市场，他们或许也因此能看到更多的东西 ―― 这正是人工智能又一次飞跃的机会。

内容来源：

近日，Reddit 上一个帖子可谓热度爆表，不到一天时间，引发大量网友讨论。该帖子内容为 “AI 揭示了政客们在开会时，看手机的时间。”

数字艺术家 Dries Depoorter 将他的最新装置 “The Flemish Scrollers” 链接到了比利时佛兰德省议会的会议直播间。

他的软件使用面部识别技术，可以自动点名那些开会时分心玩手机的政客。该项目是在佛兰德部长兼总统扬?詹邦（Jan Jambon）在政策讨论期间玩愤怒的小鸟后引起公众愤怒近两年后推出的。

细细看来，这图很有意思，开会时认真听会的政客们不会被标记，而低头看手机的政客们被准确无误的标记出来，不但如此，还把他们看手机的时间占比给标记出来。

对此，有网友提出疑问，“这款软件试图找出分心的政客，但调查范围仅限于手机，而不包括盯着笔记本电脑和平板电脑的政客，这是有其他原因吗？撇开我对政客们的 (负面) 偏见不谈，说实话，这并不能说明他们是否在用手机、或者平板电脑、笔记本在做其他的事，又或者是他们真的在做会议相关的事。”

而这款软件是用 Python 编写的，用到了物体检测和人脸识别技术，这两种技术都是基于 Keras：物体检测用来检测手机，人脸识别来识别会议中的政客。

还有网友认为：“这有点可怕。监视的如果是政客，你可能会觉得好笑，但如果公司把这种技术用在员工身上，会发生什么呢？”

内容来源：

3. 这届 AI 预测欧洲杯冠军，通通被打脸

持续了一个月的欧洲杯，终于落下帷幕。早在比赛前几个月里，就有不少研究机构公布了他们对本次大赛的预测结果，各个 AI 综合了近年各个球队的数据、比赛结果和球员表现，对欧洲杯的夺冠热门球队、单场比赛结果，都进行了预测。现在看来大部分 AI 预测结果，几乎都被打脸。

通常这类赛事预测 AI，会收集近年内全世界千余支球队的数万场比赛的百亿条数据，并将所有能够影响比赛的因素（如球员伤病情况、转会情况、天气情况等）都数据结构化。

再结合博彩公司的盘口和赔率情况，运用机器学习、深度学习等人工智能算法，进行建模，通过分析和匹配得出比赛预测结果。

目前人工智能都是依靠可量化的数据进行观察。但如果数据不真实，结果必然是不准确的。此外，模型无法结合难以量化的因素，例如球队即时状态、球员情绪、现场球迷情绪等等。

数据分析公司美库尔的总监 Debs Balme 认为，与其他比赛相比，足球比赛的预测本质上更为复杂。足球赛事因为其赛事特性，比赛数量远比篮球、棒球等运动少得多，可利用的数据也更少。比如，棒球运动员一个赛季要打 162 场比赛，而足球联赛一个赛季只有 38 场比赛，再加上杯赛等其他比赛，即使是豪门球队一个赛季也最多比赛 50 多场。所以足球赛事本身的预测难度，就要比其他体育赛事高上很多。

内容来源：

1. 搭载 AI 的真?物理自瞄外挂，宣称不会被发现，动视：已连锅端

都说主机游戏难以开挂，最近却有人称他们实现了 “全平台制霸”，无论是在 PC 里，还是 PS、Xbox 上，都可以成为 “神枪手”。究其原理，这似乎是一个真?物理的自瞄外挂，只要你有另一台电脑，再加上视频采集卡、模拟输入控制器（模拟鼠标或手柄），当然还少不了核心软件 AI。

具体来说，这个外挂先是用一个视频采集卡记录游戏的实时输出并立即将其发送到另一台计算机。然后在这台计算机上，用已经训练好的的对象检测算法（比如 YOLO）进行快速人形目标检测。一旦机器在屏幕上识别出敌人，系统就可以迅速计算出鼠标需要移动的方位和距离。其中可以选择任意人体部位，比如直接瞄准头部。

最后再将这些数据发送到鼠标输入控制设备，比如 Titan Two 或 Cronus Zen。让它们进行自动瞄准并以超人的速度完成射击。除了快速瞄准和射击，这个作弊器还具有后坐力自动调整等功能。在中程距离下效果最好，远程下使用狙击镜的话效果也不错。

不知道这边反作弊团队有没有抓到用这个作弊器的玩家，但是最新消息却显示：它的老窝已被连锅端了。游戏世界也是需要公平和正义的。

内容来源：

2. OpenAI 雄心勃勃的机器人计划失败了：强化学习没法用？

曾经训练出单手解魔方机器人的 OpenAI，眼下已经解散了机器人团队。这家执着于实现通用人工智能（AGI）的公司现在放弃了机器人研究，理由是 “数据不够丰富”。近期，OpenAI 公司联合创始人 Wojciech Zaremba 在一档播客节目中透露了这个消息。当主持人问到 “你们为什么选择了机器人领域” 的时候，Wojciech Zaremba 却表示，OpenAI 已将重点转移到其他领域，因为在那些领域中数据更容易获得。

深入思考，OpenAI 放弃机器人技术可能反映了该公司面临的经济现实。随着研发成本的增加， DeepMind 近年来也经历了类似的转变，从有声望的项目转向商业应用 ―― 例如蛋白质结构预测。众所周知，机器人技术是一个成本高昂的领域。由于经济原因进行大规模变动的机器人公司并不是个例。

一年前，微软宣布向 OpenAI 投资 10 亿美元共同开发微软 Azure 云平台的新技术。作为交换，OpenAI 同意将其部分知识产权许可给微软，并且在开发下一代计算硬件时用 Azure 训练和运行 AI 模型。

之后的几个月里，OpenAI 发布了一个 Microsoft Azure 驱动的 API，允许开发人员探索 GPT-3 的功能。GPT-3 现在已被众多业内开发者在 300 多个不同的应用程序中使用，平均每天产生 45 亿个单词。2020 年底，微软宣布将独家许可 GPT-3 为客户开发和交付 AI 解决方案，以及创建利用自然语言生成能力的新产品。

在这些商业动向的背后，是机器人商业化场景落地难的实际现状。在 AI 产业落地面临复杂场景挑战的今天，对于 OpenAI 来说，放弃成本高昂且研发成果匮乏的机器人研究团队，也许是一个长远的明智选择。

内容来源：

openai dota2比赛解说哪个ai打败了dota世界冠军

openai在您所在的国家不可用,openai 马斯克,openai是什么意思,openai 百度百科

本场比赛对于 OpenAIFive 来说，是首次在 DOTA2 最高级比赛上以 5 对 5 的形式对阵人类职业选手。OpenAI 选择的阵容是直升机、巫妖、死亡先知、寒冰室女、潮汐猎人；PG 的阵容是恶魔巫师、瘟疫法师、巫医、狙击手、斧王。

图丨Pain Gaming（PG）战队

比赛刚刚开始，PG 通过使用诡计之雾拿到了潮汐猎人的第一滴血。这还不算完，OpenAIFive 在自己的下路一塔旁边插了一个真眼，实际上防御塔是自带真实视野的，OpenAIFive 的做法无异于浪费团队资源。

在 2 分钟左右的时候，OpenAIFive 中单的潮汐猎人在满状态的情况下回家补给自己的状态。4 分钟左右，OpenAIFive 的直升机与 PG 的巫医发生冲突，导致双方均阵亡。通过这次交锋可以看出，OpenAIFive 在计算伤害方面非常精准，直升机最后一击刚刚够杀死巫医。

6 分钟的时候，潮汐猎人身上购买了一个显影之尘。这是一件为了识破隐身的消耗品，不过 PG 的阵容没有一个英雄会使用隐身技能。

OpenAIFive 在 8 分钟时下路集结了三个人，完成了对瘟疫法师的击杀。最神奇的事情，直升机对对方攻击力的把握非常准确，在自己仅剩 7 滴血的时候杀死了对方。

10 分钟的时候，双方人头扳平。狙击手的经济为 4500，全场第一。并列第二名是 PG 的斧王和 OpenAIFive 的死亡先知。

从前期来看，OpenAIFive 非常注重击杀，而经济发育方面落后了不少。从 13 分钟开始，OpenAIFive 选择 5 人集合从中路推进，并且选择使用诡计之雾对 PG 的队员进行追击。前者从中路一直追到了下路，并完成了一次 1 换 3。

15 分钟时，OpenAIFive 再次集合 5 人进行推进，这次他们的目标是下路一塔。这次推进的结果超过了预期，OpenAIFive 不仅夺下了下路二塔，还击杀掉了对方的狙击手和斧王。

OpenAIFive 会给出双方的获胜几率，从现场的图表上来看，电脑在比赛全程的胜率都是将近 100%。

比赛 20 分钟的时候，巫妖在中路把大招施放给了落单的狙击手。可是巫妖的大招要在人多的时候才能发挥作用。过了两分钟后，PG 的斧王使用闪烁匕首进行偷袭，就算是给电脑设定了 0.2 秒的反应时间，这种人类根本不可能反应过来的操作还是被电脑躲开了。

图丨截止至比赛中段，PG 一直处于经济领先

讽刺的是，作为 OpenAIFive 2 号位的潮汐猎人，此时的经济成为了全队倒数第二。

在视野方面，OpenAIFive 存在严重的 BUG。除了上文提到的防御塔下插真眼外，机器还把真眼和假眼插到了主基地的旁边，而在这旁边就是两支拥有真视视野的防御塔。

30 分钟的时候，OpenAIFive 再次击杀了肉山。不过拿走复活盾和奶酪的人是经济排在全场第 6 的巫妖。一般来说，复活盾和奶酪会放在队伍 1 号位和 2 号位手里。

在比赛进入中后阶段，OpenAIFive 突然改变了自己的作战风格。前期他们非常喜欢击杀对方英雄，而现在 OpenAIFive 开始全场补兵和清理野区。33 分钟时，中路的死亡先知在没有对方视野的情况下释放了大招。

34 分钟时，死亡先知利用 Eul 的神圣法杖躲过了斧王的战斗怒吼。这让解说们认为，操作迟应该更长一些，现在看起来还是不太平衡。36 分钟时，OpenAIFive 被 PG 团灭，死亡先知、潮汐猎人均阵亡。

PG 选择在此时进攻对方高地，潮汐猎人在此时选择买活，死亡先知再一次在视野内没有任何敌人的时候释放了大招。

截止至 40 分钟，OpenAIFive 的信使已经被击杀了两次。随后双方爆发了一场团战，斧王的技能依然被对方利用装备和技能躲掉了，现场的解说再一次吐槽了这个 0.2 秒延迟。

40 分钟时，OpenAIFive 选择进攻肉山。死亡先知虽然购买了大勋章装备，但是并未对肉山使用。随后机器在自己的远古野区连续插了两个假眼，每个视野道具的视野都不能叠加，因此这两个假眼等于一个。

43 分钟时，死亡先知第三次在没有任何敌人的时候释放大招。

图丨 OpenAIFive 击杀数领先

44 分钟时，OpenAIFive 的击杀数领先对方 11 个，但是经济落后更多。现场解说认为，OpenAIFive 主要赢在操作上，瞬间反应的操作让斧王、恶魔巫师等拥有施法时间的英雄毫无作用，因此操作延迟设定为 0.2 秒一事有待商权。

46 分钟时，寒冰室女在上路停止了操作，被路过的斧王单杀。48 分钟，买活的飞机再次被击杀，复活时间为 115 秒。此时 OpenAIFive 判定，PG 的胜率为 75%。

51 分钟时，OpenAIFive 的三路高地被破，且四人在无法买活的情况下阵亡。52 分钟时，PG 获得了胜利。

比赛的后期局势终于掌握在了人类手里，成型的火枪无人能够制裁，在失去了对 AI 的试探之后比赛的观赏性也随之降低，AI 虽然表现出来了不少亮点，但距离人类顶级选手的差距依然不可忽视。

值得注意的是，整场比赛中人类方的 NEC 和斧王前期也都出现了计算失误大招没能收掉对方的问题，跳刀先手更是被对方顶着惊人的延迟躲掉。如果这样无懈可击的操作交给人类选手的意识和局势判断能力来驾驭，不再那么随意的交掉关键性技能，那么人类选手可能将毫无机会。

根据大数据预测分析多数时间都给了 AI 方 90% 以上的胜率，随后高地一波降到了 70%，50 分钟的时候给出了 30% 的反水结果。而最终结果是经历了 53 分钟的鏖战之后，人类拿下本场比赛的胜利。

DOTA 2 是一个高难度游戏。它要求选手在比赛中展现出团队精神、战略思维和极快的反应能力。OpenAI 已经花了较长一段时间来探索如何“攻克”DOTA2，并于 2017 年 8 月在 TI7 上首次登场，在中单 SOLO 模式用影魔打败了 Navi 的职业选手 Dendi，进而引发了大量的关注。不过在当时，OpenAI 虽然打败了职业选手 Dendi，但那场比赛设置非常有限，因此不能代表真实的比赛。

但今年，在完善和调整了机器学习系统所需的硬件和运算量后，OpenAI 已经突破了许多限制，从而缩短了人与机器之间的竞争差距。

图丨 OpenAI 今年 8 月 6 日的比赛现场（来源：OpenAI 官方博客）

2018 年 6 月，OpenAI 开发的 AI 已经能够组队在 5V5 对战中战胜 DOTA2 业余玩家，这些玩家的平均天梯分数超过 4200 分。匹兹堡卡内基梅隆大学的研究员 Noam Brown 曾表示：“DOTA2 是一个极其复杂的游戏，能打败强大的业余玩家就已经很不容易了，而且，处理DOTA2 这种大型游戏中的隐藏信息是一个很大的挑战。”

图丨今年 6 月，OpenAI 的 AI 团队击败了 OpenAI 的员工团队（来源：麻省理工科技评论）

到了今年 8 月初，OpenAI 迎来一个新的巅峰：其 Five 系统以 2:1 的成绩战胜了人类队伍。而这场比赛的人类选手――Blitz、Cap、Fogged、Merlini 和 MoonMeander，平均水平超过了 99.95% 的 DOTA玩家，其中的四人都参加过职业比赛。值得一提的是，在当时的第三局比赛中，观众故意针对 Five 选择了较差的阵容，但 OpenAI 同样在比赛中展示了团队的初步成果，比如 Five 对游戏的理解、对形势的判断以及对获胜概率的预测，某些预测甚至出乎意料。

这些结果都表明，OpenAI Five 是迈向可以处理现实世界的复杂性和不确定性的高级 AI 系统。

图丨 8 月 6 日的比赛中，Five 仅耗时 14 分钟就赢下了比赛，而平均一场完整 DOTA比赛耗时 45 分钟左右（来源：OpenAI 官方博客）

根据 OpenAI 此前的介绍，OpenAI Five 由五个单人模式、1024 单元的长短期记忆 (LSTM) 网络，每个网络的大小与蚂蚁的大脑大小相当。它通过参加大量的比赛来熟悉 DOTA2 的相关技能，并在训练期间每天都能获得高达 180 年的游戏经验，代表了五个 AI 共 900 年的经验，这是人类团队永远无法实现的。

OpenAI 创建人工智能时使用的是机器学习的一种方法――强化学习。这种技术看似简单，但是能让 AI 习得非常复杂的行为。让 AI 学习的过程是，把 AI 放到虚拟环境中，并通过自我尝试学会实现目标。开发者可以设定奖励机制（比方说在 AI 杀掉敌人后奖励机器系统），然后让 AI 一遍遍进行游戏。

这些 DOTA机器人的自我训练量惊人，并且会连续训练几个月。研究人员说：“它开始时在地图上乱走，但是，几个小时后，它开始具备基本技能。如果一个人需要花 1.2 万到 2 万小时才能成为专业游戏玩家，那 AI 的速度要快得多，因为每天积累的游戏经验是一个人一生积累经验的 100 倍。”

OpenAI 通常的开发流程是从头开始训练系统的每个版本。但是，OpenAI Five 自 6 月 9 日以来，已经经过六个大版本修正，每个新版本系统都使用前一个版本的参数进行初始化，然后再进行训练。具体而言，OpenAI 团队在一种迭代训练工具（称为“手术”）上投入了大量资源，从而实现模型能够将旧的参数映射到新的网络架构上。

例如，当第一次训练插眼（Dota 术语）时，共用了一个 action head 来决定英雄的移动方向和插眼位置。但是 Five 往往会把眼插在它试图前进的方向上，于是团队推测这主要是因为 OpenAI Five 将其大部分运算力分配在了移动上。随后团队利用“手术”工具让将一个 action head 分为完全相同的两个，并使用相同参数进行初始化。

图丨可视化模块显示每个英雄被选中后 OpenAI Five 的预期获胜概率

6 月下旬，OpenAI 团队开始在系统中添加了一个获胜概率的输出，使得 OpenAI Five 能够反馈和修正预测的内容。当后来考虑征召模式时，团队意识到可以用这一概率来估计任一阵容的获胜概率――仅在比赛最开始看一下双方选的阵容就可以了。在接下来的一周内，OpenAI 团队自行模拟了 1100 多万个可能的英雄阵容的画面输入给 Five 系统，并写了一个搜索树（数据结构）来寻找 OpenAI Five 的最佳阵容选择策略。

从 6 月击败 4000 分到 8 月碾压 7000 分，OpenAI 还通过一种名为近端策略优化（Proximal Policy Optimization）的强化学习算法进行训练。在六月的比赛中，该系统更是通过 Google Cloud 消耗了惊人的 128,000 个 CPU 内核和 256 个 Nvidia P100 GPU。

据估计，训练这一 DOTA 系统需要的资源如下（注：1 petaflop/s-days 是指一天执行每秒 1015 次神经网络操作，或总计 1020 次操作）：

1v1 模型 l：8 petaflop/s-days

6 月 6 日的模型：40 petaflop/s-days

8 月 5 日的模型：190 petaflop/s-days

1v1 模型 l：8 petaflop/s-days

6 月 6 日的模型：40 petaflop/s-days

8 月 5 日的模型：190 petaflop/s-days

图丨 8 月 6 日的最新网络架构（来源：OpenAI 官方博客）

据 OpenAI 官方博客介绍，8 月份的新模型中，输出可以预测英雄在未来一段时间的预计位置。以下视频就突出显示了 Sven 在 6 秒后的预测位置：

除此之外，还可以训练输出来预测各种其他统计数据，比如补刀数、推塔数等：

自开发专注 DOTA2 的 AI 以来，Open AI 的团队一直以参加此次的 TI8 为目标，团队也曾经表示，“我们不知道它是否可以实现，但是我们相信通过自身的努力（和运气），机会还是很大的”。而在这次的 TI8 中，众所周知，如今顶尖职业选手的天梯分普遍在 9000 分上下，从碾压 7000 分后，按照此前的学习速率来计算，OpenAI 取得如此成绩，或许真的是运气和努力兼备。

-End-