前沿追踪 | 强化学习月度十大动态 2106 期:Decision Transformer,通用人工智能,芯片设计等
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
本推文整理了 2021 年 6 月强化学习十大学术动态,涵盖强化学习相关领域的论文、会议、竞赛、观点等内容,全面覆盖RL theory,multi-agent RL,offline RL,RL application,AGI 等强化学习关键领域。关注RL china公众号(名称:RLCN),及时获取前沿论文解读、学术动态、学者访谈、产业新闻等内容。
在生物界中,智能的表现是极具多样性的,包括语言能力、感知能力、学习能力、模仿能力、社交能力等等,但涌现这些智能背后的原因值得探究。论文《Reward is Enough》提出一种假设:智能和与其具体表现形式以被理解为促进最大化某些奖励的行为。因此,奖励最大化这一通用目标足以驱动智能体表现出自然智能和人工智能研究的大部分能力,而不必为每种能力定义特定的问题形式。论文还认为基于强化学习的尝试与纠正的学习框架为通用人工智能提供了一个解决方案。
【论文链接】
芯片布图规划是设计计算机芯片物理布局的工程任务。尽管经过了 50 年的研究,芯片布图规划仍未能实现自动化,设计工程师需要数月的高强度工作才能生产出可制造的布局。因此论文《A graph placement methodology for fast chip design》提出了深度强化学习算法进行芯片布图规划,主要开发了一种基于边的图卷积神经网络来学习丰富且可迁移的芯片布局表征,该算法在不到 6 小时的时间内就能自动生成芯片布局方案,在所有关键指标,包括功耗、性能和芯片面积,都优于或可比那些由专家设计的芯片布局方案,预计可在下一代 TPU 的设计中节省上千小时人力。
【论文链接】:
Transformer架构在自然语言等序列建模问题中取得了突出进展,发展出 GPT-x 和 BERT 等模型。论文《Decision Transformer: Reinforcement Learning via Sequence Modeling》将强化学习抽象为一个条件序列建模问题,使得强化学习任务也能利用 Transformer 架构的简洁性与可拓展性。论文提出了 Decision Transformer 算法,不同于过去的强化学习算法拟合值函数或者计算策略梯度,该算法通过给定期望奖励的条件自回归模型,输入历史状态动作奖励,直接利用因果掩码 Transformer (causally masked Transformer)输出最优动作序列。尽管想法非常简单,算法在无模型离线强化学习设定下的 Atari, OpenAI Gym, 和Key-to-Door 任务上取得了最佳表现。本月论文《Reinforcement Learning as One Big Sequence Modeling Problem》在这一主题下也值得参考。
【论文链接】:
相比于部分 CV 和 NLP 研究通过提升模型深度和改进网络架构获取性能提升,强化学习中往往只使用简单的多层感知机,依靠改进算法获得性能提升。而论文《Towards Deeper Deep Reinforcement Learning》研究了将简单的多层感知机替换为更大规模的先进网络架构如何影响强化学习智能体的表现。在 SAC 算法下,论文基于实验验证了简单地替换更大规模的网络反而使得训练不稳定且性能较差。但实验表明并不是强化学习的数据集较小,导致过拟合,造成性能下降,而 SAC 算法中 actor 通过 critic 计算梯度的内在不稳定性才是罪魁祸首。因此论文提出了一种平滑的方法来缓解这一问题,提升了大模型训练下的稳定性,从而大大提升了算法的效果。
【论文链接】:
踢足球时,运动员的运动由神经控制的肌肉与关节产生,但是这些微观层面的控制目标却是在更大尺度的时空上达到运动员间的协作,而目前整合微观控制与宏观协作的研究却很少。论文《From Motor Control to Team Play in Simulated Humanoid Football》将模仿学习、单智能体、多智能体强化学习整合起来解决仿真环境中的拟人足球。训练分为多个阶段,智能体首先在微观学会控制身体进行奔跑与转向,然后在介观层面学会带球与射门,最后在宏观层面学会团队协作。论文还研究了在不同抽象层次上行为的涌现,构成了在多智能体多尺度下整合决策场景下的一个完整的工作。
【论文链接】:
训练机器人在真实的家庭环境下完成一系列有用的任务极具价值,但高效易行的途径是首先在仿真器中进行训练。因此在论文《Habitat 2.0: Training Home Assistants to Rearrange their Habitat》中 Facebook 开源了一个用于在交互式 3D 环境和复杂物理场景中训练虚拟机器人的仿真平台 Habitat 2.0。该仿真器提供了大量真实环境中可执行的操作,并且在 8 卡GPU节点上每秒可仿真超过 25000 步,是目前公开可获取的最快速高效的仿真器。同时 Habitat 中提供了一系列的家庭服务测试基准任务,包括整理房间,准备食品,摆放桌椅等,为不同算法间的比较和开发提供了新场景。
【论文链接】
论文《Deep Learning for AI》中人工智能三大巨头再次联合发文回顾了深度学习的起源与基本概念,梳理了当前的一些突破性进展,最后讨论了深度学习走向人工智能仍然面临的挑战。在突破性进展方面,论文梳理了 soft 注意力机制与 transformer 架构、自监督与无监督学习、对比学习、变分自编码器等方面的前沿进展。论文也指出未来深度学习走向人工智能所面临的从同质的神经元层到代表实体的神经元组,适应多个时间尺度,展现更高层次认知等诸多待解决的挑战。
【论文链接】:
2021 年度 ICML workshop 时间表已经发布,7 月 18 日到 7 月 24 日中将举办 36 场 workshop 活动,主题覆盖自动机器学习、差分隐私、因果推断、可解释学习、鲁棒性与不确定性等主。其中五场与强化学习直接相关,分别是:Reinforcement Learning for Real Life,Unsupervised Reinforcement Learning,Workshop on Reinforcement Learning Theory,Real World RL: Azure Personalizer & Vowpal Wabbit,Human-AI Collaboration in Sequential Decision-Making。
【论坛链接】:
2021 北京智源大会于 6 月 1 日至 6 月 3 日召开,围绕人工智能的大主题,共计举办了 4 场全体大会,29 场学科专题分论坛,以及 4 场领域教程讲座,会议邀请到 2 位图灵奖得主在内的 200 位国内外人工智能领域的领军学者分享报告,子主题包括智能体系架构与芯片、智能信息检索与挖掘、人工智能伦理、机器学习等。其中 “决策智能科学场景暨滴滴决策智能仿真开放平台”和“强化学习与决策智能论坛”分论坛与强化学习领域关系较为密切。
【原文链接】:
虽然强化学习的资源不少,但是目前中文领域内的教程仍然比较有限。《Easy-RL》作为中文教程包括了系统讲解、章节习题、算法实战等三大部分,对于习惯中文讲解的强化学习初学者是很好的理论结合实践的入门材料。教程整合了李宏毅老师的《深度强化学习》,周博磊老师的《强化学习纲要》、李科浇老师的《百度强化学习》以及多个强化学习的经典资料,内容涵盖强化学习的基本理论,基于值函数的方法,基于策略梯度的方法,基于演员评论家的算法等。
【教程链接】:
RLChina:前沿追踪 | 强化学习月度十大动态 2105 期:安卓模拟环境,Expire-Span 等RLChina:前沿追踪 | 强化学习月度十大动态 2104 期:sampled Muzero,MBRL-Lib 等RLChina:前沿追踪 | 强化学习月度十大动态2103 期:recursive classification,量子加速强化学习 等动态 | 从零开始快速入门深度强化学习,OpenAI 发布学习资源 Spinning Up
AI 科技评论编者按:日前,OpenAI 发布了深度强化学习教育资源 Spinning Up,内容包括易懂的深度强化学习代码示例、习题、文档和教程。据 OpenAI 发布的博客称,零基础的深度强化学习「小白」通过自学 Spinning Up,也能快速掌握这一技能,甚至成为该领域的从业者。AI 科技评论对该博文进行编译如下:
OpenAI 发布的深度强化学习教育资源 Spinning Up,旨在让所有人学完后,都能成为一位熟练掌握深度强化学习技能的从业者。 Spinning Up 包含了易懂的深度强化学习代码示例、习题、文档和教程。
专为深度强化学习的学习设计
OpenAI 认为深度学习――尤其是深度强化学习――将在强大的 AI 技术发展中发挥核心作用。虽然现在有很多可用的资源能让人们快速提升深度学习技能,但是深度强化学习的掌握会更具挑战性。对此,OpenAI 设计了 Spinning Up 这套课程来帮助人们学会使用这些技术,并培养对于这些技术的认知。
OpenAI 开发 Spinning Up 的灵感来源于与其学者和研究员合作的工作,在此过程中,他们发现,如果得到正确的指导和资源,在机器学习方面的经验很少甚至没有经验的人也能够快速提升为这一领域的从业者。深度强化学习的这份 Spinning Up 资源正是考虑到这种需求所开发的,它已被整合到了 2019 年学者和研究员团队的课程(https://blog.openai.com/openai-scholars-2019/)中。
OpenAI 还发现,掌握强化学习的技能能够帮助人们参与到跨学科研究领域中,例如 AI 安全,该领域就涉及到强化学习和其他技能的结合。此外,还有很多人向 OpenAI 寻求从零开始学习强化学习的指导,因而他们决定将所给出的这些非正式建议体系化。
深度强化学习 Spinning Up 包括以下核心内容:
- 强化学习术语、各类算法以及基本理论的简介;
- 一篇关于怎样成长为一名强化学习研究者的总结;
- 一份按照主题排列的重点论文列表;
- 一份完善记录各类强化学习算法简介以及单独实现方式的代码文档,这些算法包括:原始的策略梯度(VPG)、信任区域策略优化(TRPO)、近端策略优化(PPO)、深度确定策略梯度(DDPG)等;
- 一些热身练习题。
针对这个项目,OpenAI 有以下支持计划:
高带宽软件支持期:发布后的前三周,OpenAI 将快速处理 bug 修复、安装等问题,以及解决文档中的错误和歧义,并努力简化用户体验,让他们尽可以简单地使用 Spinning Up 自学。
2019 年 4 月的主要核查: 发布 Spinning Up 约六个月后,OpenAI 将基于从社区收到的反馈,认真核查软件包的状态,并公布未来的改进方案。
内部开发的公开发布: OpenAI 如果在与学者和研究员共事时,对深度强化学习中的 Spinning Up 进行了修改,会将修改发送到公开报告中,并立即向所有人开放。
深度强化学习的 Spinning Up 是 OpenAI 新教育倡议的一部分,在这里,他们正「spinning up』地来保证实现《OpenAI 章程》的宗旨之一:「寻找创建一个让全球社区进行协作的方法,从而解决 AGI 的全球化挑战。」他们希望 Spinning Up 可以让更多人熟悉深度强化学习,并以此来推动安全、广泛受益的人工智能的前进。
2019 年 2 月 2 日,他们将在 OpenAI 旧金山分部举办一个深度强化学习 Spinning Up 研修班,包括 3 小时的课程讲解和 5 小时的半结构化开源、项目开发和分组会议――整场会议全部由 OpenAI 技术人员进行支持。我们希望参会者有软件工程经验,并要求他们有学习过机器学习但没有正式的机器学习经验。感兴趣的读者可以填报申请表(https://docs.google.com/forms/d/e/1FAIpQLSdWbG3H3JYC2Vp-bC1yeP1SL_DSi6laLNjW1RjvEEzlA1V6rg/viewform)报名。
OpenAI 还将与其它组织进行合作,来指导人们学会使用这些资源。他们的第一个合作伙伴是加州大学伯克利分校的 Center for Human-Compatible AI (CHAI),二者将在 2019 年初合作举办一个关于深度 RL 的研修班,类似于计划在 OpenAI 举办的 Spinning Up 研修班。
了解深度强化学习算法表现如何的最好方法,就是运行它们。而有了 Spinning Up,这就变得像下面这段代码一样简单:
python -m spinup.run ppo --env CartPole-v1 --exp_name hello_world
在训练的最后阶段,你将获得关于如何从实验中查看数据以及观看受过训练的智能体视频的指导。
Spinning Up 的执行可与 Classic Control、Box2D 和 MuJoCo 任务套件中的 Gym 环境兼容。
另外,考虑到新入门者,OpenAI 为 Spinning Up 设计代码的思路是,使其尽可能地更短、更友好,以及更易于学习。OpenAI 的目标是,用最少的执行步骤来演示理论如何变成代码,规避深度强化学习库中常见的抽象层和模糊层。相比于提高代码可重用性的模块化设计,OpenAI 更看重代码的清晰易读,代码重用仅限于日志记录和并行化工具。Spinning Up 提供的代码都带有注释,这样使用者总是能够明白现在进行到了哪里,并在相应的阅读文档页面上得到背景材料(和伪代码)的支持。
Via:https://blog.openai.com/spinning-up-in-deep-rl/ ,AI 科技评论编译
吐血推荐,B站最强学习资源汇总(数据科学,机器学习,python)
b站学什么- AI入门了解
- 数学基础
- 可视化
- 数据分析
- 数据挖掘
- 机器学习
- 深度学习
- 自然语言处理
- Python
- 其他相关领域有趣的up主
1、Crash Course AI
课程介绍:该课程出自Crash Course,首发YouTube,单个视频时长均在10分钟左右。视频节奏非常好,语速偏快,适合下饭时间入门了解。主讲很擅长深入浅出的讲清复杂的概念,一集信息量很大甚至评论区还会有课代表帮你总结才能稍稍消化。
1、Up主:3Blue1Brown的数学基础
课程介绍:用动画讲述数学专业知识,其视频涵盖了线性代数、微积分、拓扑学等领域,每门课都配有直观生动的动画演示,帮助观众加深对数学概念定理的理解。
2、数学分析
课程介绍:复旦陈纪修老师的数学分析视频课程,共214讲。陈纪修老师主持编写了21世纪课程教材――《数学分析》。
3、数学建模
www.bilibili.com/video/av8824879 课程介绍:清华大学数学建模公开课,共84讲。教材用的是《数学模型》姜启源 。
4、统计学
课程介绍:可汗学院公开课,将统计学所有内容都涵盖了。共85讲。
1、Python数据可视化分析
课程介绍:麦子学院的公开课,共31讲。
2、Matplotlib Python 画图教程
课程介绍:莫烦Python的课程内容,共19讲。
1、Python 数据分析与展示(北京理工大学 )
课程介绍:北京理工大学MOOC课程,共65讲。
2、Numpy & Pandas
课程介绍:莫烦 Python 数据处理教程,主要讲解Numpy、Pandas两个包的使用。共18讲。
3、【数据分析】SQL数据库入门到精通,最干净易懂的小白必备教程10小时完整版
课程介绍:英文课程,中文字幕,很多同学表示这是看过最好的课程,通俗易懂。
1、清华大学-数据挖掘:理论与算法
课程介绍:本课程完整覆盖数据挖掘领域的各项核心技术,包括数据预处理、分类、聚类、回归、关联、推荐、集成学习、进化计算等。强调在知识的广度、深度和趣味性之间寻找最佳平衡点,在生动幽默中讲述数据挖掘的核心思想、关键技术以及一些在其它相关课程和教科书中少有涉及的重要知识点,适合对大数据和数据科学感兴趣的各专业学生以及工程技术人员学习。
1、[中英字幕]吴恩达机器学习系列课程
课程介绍:这是个视频是转自吴恩达老师在Coursera上的公开课视频,内容偏向理论而并非实战,适合初学机器学习、深度学习的同学。需要视频配套资料的可以看看这里https://zhuanlan.zhihu.com/p/84214338这是国内黄博士为吴老师课程配的全套资料,包括视频字幕,对应python代码,原版PPT,中文版笔记等等
2、林轩田机器学习基石(国语)
课程介绍:台湾大学林轩田老师的《机器学习基石》课程由浅入深、内容全面,基本涵盖了机器学习领域的很多方面。其作为机器学习的入门和进阶资料非常适合。而且林老师的教学风格也很幽默风趣,总让读者在轻松愉快的氛围中掌握知识。
3、机器学习技法(林轩田)
课程介绍:同样是台大林轩田老师课程,通常学完基石的同学会继续学习这一门课程。
4、李宏毅机器学习(2017)
课程介绍:台大教授李宏毅制作的,经常被认为机器学习中文课程的首选,而且课程风格诙谐幽默,这就让枯燥的课程变的有趣许多。而且最重要的是,课程中布置了很多作业,而万能的网友更是找出了作业答案,并将其公布在了留言区,可以说太良心了,简直是没钱报班学习者的福音。
5、up主:shuhuai008 【机器学习】【白板推导系列】
课程介绍:这个up主来自清华,他做的这一套机器学习白板推导的视频讲解系列目前出到第33集流模型。这个视频系列最大的特点是给出了整体的框架,再用单章去分解里面的重点,力求做到简洁易懂,很有中国特色。对比国外普遍一个视频2小时的课程,更适合国人。
6、机器学习教程【强烈推荐】
课程介绍:这门课程来自邹博老师的《机器学习与数学分析》,风格同样是深入浅出、通俗易懂,对于有基础和没基础的同学,都能让你轻易入门。
7、机器学习算法-2017邹博最新(Python版)
课程介绍:这门课程同样来自邹博老师,适合配合上一部一起观看。
8、(上海交通大学张志华)机器学习导论
课程介绍:张志华老师的这门课讲的很深入,适合学习机器学习和深度学习的研究者深入学习,内容比较偏向理论,需要一定的数学基础。
9、Scikit-learn (sklearn) 优雅地学会机器学习 (莫烦 Python 教程)
课程介绍:莫烦的机器学习教程汇集了很多近些年来比较流行的 python 模块教程。课程内容有趣,没有机器学习背景的朋友们也能产生兴趣,对机器学习的每种方法都能迅速理解。另外,对于已经入门了的同学们, 这门课程也是一个提升自己应用机器学习的好地方, 因为里面同时也介绍了很多种机器学习的技巧方法, 能大大帮助提升学习效果。
10、Stanford : Statistical Learning 斯坦福大学:统计学习
课程介绍:这门课程来自统计学两位超级大佬,全英文字幕,是公认的统计学系入门课程,使用的教材是Introduction to statistical learning,极力避免深奥的公式推导和复杂的概念,对于数学基础不好的人非常友好。
1、【中英字幕】吴恩达深度学习课程
第一课 ― 神经网络与深度学习
课程介绍:这门课程的目标是为同学们介绍深度学习的基础知识。学完这门课,你将能够:理解驱动深度学习的主要技术趋势;能够搭建、训练并且运用全连接的深层神经网络;了解如何实现高效的(向量化)的神经网络;理解神经网络架构中的关键参数。
第二课 ― 改善深层神经网络:超参数调试、正则化以及优化
课程介绍:这门课程将学会理解业界构建深度神经网络应用最有效的做法;能够高效地使用神经网络通用的技巧,包括初始化、L2和dropout正则化、Batch归一化、梯度检验;能够实现并应用各种优化算法,例如mini-batch、Momentum、RMSprop和Adam,并检查它们的收敛程度;理解深度学习时代关于如何构建训练/开发/测试集以及偏差/方差分析最新最有效的方法;能够用TensorFlow实现一个神经网络。
第三课 ― 结构化机器学习项目
课程介绍:这门课程将学会理解如何诊断机器学习系统中的错误;能够优先减小误差最有效的方向;理解复杂ML设定,例如训练/测试集不匹配,比较并/或超过人的表现;知道如何应用端到端学习、迁移学习以及多任务学习。
第四课 ― 卷积神经网络
课程介绍:这门课程将学会理解如何搭建一个神经网络,包括最新的变体,例如残余网络;知道如何将卷积网络应用到视觉检测和识别任务;知道如何使用神经风格迁移生成艺术;能够在图像、视频以及其他2D或3D数据上应用这些算法。
第五课 ― 序列模型
课程介绍:这门课程将学会理解如何构建并训练循环神经网络(RNN),以及一些广泛应用的变体,例如GRU和LSTM;能够将序列模型应用到自然语言问题中,包括文字合成;能够将序列模型应用到音频应用,包括语音识别和音乐合成。
2、up主:周博磊 强化学习纲要
课程介绍:最近,香港中文大学信息工程系助理教授周博磊也开始当up主,上传自己的《强化学习》课程。整个课程共分为基础课程和高阶课程两大部分,主要面向大三、大四或研一的学生,参加课程的学生需要具备相关背景知识,包括线性代数、概率论、机器学习(数据挖掘、模式识别、深度学习)等。此外,由于该课程有不少实践内容,所以参加课程的同学最好有一些编程经验,会用 Python、PyTorch。除了直播和课程视频之外,周博磊还会同步更新课程的代码,使用的编程语言为 Python,深度学习框架则是 TensorFlow 和 PyTorch 皆可(PyTorch 为主)。和常规的课程一样,《强化学习纲要》也会在每节课后留下一些作业。
3、深度学习框架Tensorflow学习与应用
课程介绍:这门课程来自炼数成金。课程内容基本上是以代码编程为主,也会有少量的深度学习理论内容。课程会从Tensorflow最基础的图(graphs),会话(session),张量(tensor),变量(Variable)等一些最基础的知识开始讲起,逐步讲到Tensorflow的基础使用,以及在Tensorflow中CNN和LSTM的使用。在课程的后面会带着大家做几个实际的项目,比如训练自己的模型去进行图像识别,使用Tensorflow进行验证码的识别,以及Tensorflow在NLP中的使用。
4、PyTorch 动态神经网络 (莫烦 Python 教学)
课程介绍:这套视频比较适合有一些机器学习课程基础的同学。
5、Numpy & Pandas (莫烦 Python 数据处理教程)
课程介绍:这门课程汇集了在 Python 中最重要的数据处理,科学计算模块: Numpy 和 Pandas。
6、Matplotlib Python 画图教程 (莫烦Python)
课程介绍:Matplotlib 是一个非常强大的 Python 画图工具;这门课程可以对比莫烦numpy & pandas & matplotlib同时来学。
7、tensorflow2.0入门与实战 2019年最通俗易懂的课程
课程介绍:本课程是关于Tensorflow与深度学习实战的一门课程。该课用通俗易懂的实例,系统讲解了Tensorflow2.0的使用,可以说是目前最新最系统的 Tensorflow 2.0 教程。其中讲解了Tensorflow中各种概念、操作和使用方法,针对Tensorflow的基础知识,在传统数据分析中应用进行详细讲解,并且给出了丰富的深度学习模型实战。
8、斯坦福2017季CS231n深度视觉识别课程视频
课程介绍:本课程是斯坦福大学关于计算机视觉的课程,全英文字幕,老师是Fei-Fei Li, Justin Johnson, Serena Yeung。
9、【北京大学】人工智能实践:Tensorflow笔记
课程介绍:这是人工智能入门课,将用八次课帮你梳理人工智能概念、机器学习方法、深度学习框架。
10、Keras 快速搭建神经网络 (莫烦 Python 教程)
课程介绍:这门课程包括对Keras的介绍以及如何搭建各种神经网络。
11、李宏毅对抗生成网络(GAN)国语教程(2018)
课程介绍:这门课程内容详略得当,不想推公式的同学可以跳过推导,并不影响后续课程。
课程的项目和论文都很新,同时也很生动,可以迅速的接触一些最新的东西。另外,为了讲清楚一个概念或技术,PPT的可视化做的非常用心,简洁易懂。
12、李宏毅深度强化学习(国语)课程(2018)
课程介绍:这门课程每个视频大约40分钟左右,PPT内容为英文,讲授语言为中文。课程内容主打强化学习,涉及理论和论文解读,需要同学们具备一定的强化学习基础。
13、David Silver 强化学习课程高清版
课程介绍:这是David Silver在 UCL 讲授的强化学习入门课程。Silver就是那位来自 DeepMind,在 Nature 上发表了 DQN 论文,紧接着提出 AlphaGo 和 AlphaGo Zero,从此掀起深度强化学习研究浪潮的大神。他的课程深入浅出,在介绍强化学习概念的过程中穿插了很多例子,对初学者非常友好,建议作为第一个观看的入门视频课程。
14、【中英文字幕】OpenAI - Spinning Up in Deep RL Workshop (Deep Reinforcement Learning)
课程介绍:对于想上手实践深度强化学习的同学们,这门课程是不错的资源,从 VPG(Vanilla Policy Gr