深度学习崛起十年:“开挂”的OpenAI革新者
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
来源:OneFlow 本文为约12248字,建议阅读12分钟
本文介绍了OpenAI联合创始人兼首席科学家Ilya Sutskever对深度学习理解的访谈。
AlexNet,AlphaGo,GPT、CLIP、DALL-E和Codex,这些在AI界轰动一时的杰作,对于任何一个AI领域的研究者来说,主导或参与上述任何一项项目都无疑可以成就一段辉煌的职业生涯,但是,偏偏就有人就能集齐这六龙珠。
更让人感到绝望的是,这个人的成就还不止于此。在他2012年博士毕业后的十年里,他的论文被引次数超过25万次,在AI学术界有着巨大影响力。此人就是OpenAI联合创始人兼首席科学家Ilya Sutskever。
(从左至右依次为Ilya Sutskever, Alex Krizhevsky, Geoffrey Hinton)
在多伦多大学读本科时,深度学习三巨头之一的Geoffrey Hinton就成了他的导师,当时这个领域一片荒芜,但他的学习动机非常明确,就是要对AI做出哪怕非常小但有意义的贡献。Hinton一开始给Sutskever的研究项目是改进随机邻居嵌入算法,后者的出色表现给Hinton留下了深刻印象。
深度学习框架开发知识路线?tensorflow和pytorch哪个好,深度学习,pytorch
做算法的,想要入坑ai框架的开发,网上知识比较零散,想请问一下系统完整的学习路线
那先知道一下深度学习主流框架都有些啥,从多个角度进行了评价评分采用5分满分制。请看下图
说起学习路线,深度学习首选 Python,Python 已经成为深度学习主导性的编程语言。而且,现在许多主流的深度学习框架。
例如 PyTorch、TensorFlow 也都是基于 Python 的。Anaconda 作为 Python 的一个集成管理工具,它把 Python 相关数据计算与分析科学包都集成在了一起,省去了各个安装的麻烦,非常方便。
而且,Anaconda 自带了 Jupyter Notebook,Jupyter Notebook 是一个非常强大的工具,允许使用者为数据分析、教育、文件等任何你可以想到的内容创建漂亮的交互式文档,已迅速成为数据分析、机器学习、深度学习的必备工具。
OpenAI 是一个非营利性人工智能研究公司,它的宗旨是推动和发展安全友好的人工智能。Sam Altman, Elon Musk 和其他几个著名的投资者负责给这家公司提供资金。OpenAI 的博客也是被全世界所有的人工智能和深度学习爱好者关注着。OpenAI 会定期发表他们在先进的人工智能技术方面的研究成果,包括自然语言处理、图像处理和语音处理。链接:blog.openai.com/
Distill 致力于清晰地解释机器学习。编辑和策展团队由来自 Google Brain,DeepMind,Tesla 和其他着名组织的科学家组成。Distill 的愿景是通过简单和视觉上令人愉悦的语言来解释机器学习的论文和模型。Distill Journal 是 Distill 提供的一个出版期刊,它是鼓励研究人员采用超越传统学术形式的方法来更好沟通科学,以及为读者服务。链接:distill.pub/
这个博客是由加州大学伯克利分校的伯克利 AI 研究(BAIR)小组设立。它的目的是传播 BAIR 小组在人工智能研究方面的发现、观点和更新成果。这个博客的编辑团队包括来自 BAIR 小组的学生、博士后和教师。他们通常每周会发表一篇文章,内容是 BAIR 在深度学习、机器学习和人工智能领域方面的研究。链接:bair.berkeley.edu/blog/
DeepMind 是在 2010 年由 Dennis Hassabis, Mustafa Suleyman 和 Shane Legg 三个人所创立。DeepMind 的博客主要包括对他们的研究论文、思想领导力以及围绕人工智能的远见卓识的讨论。由于 DeepMind 团队的人工智能模拟研究,他们的博客受到了很多人工智能研究者的高度重视。此外,DeepMind 还是 2014 年被谷歌收购的 Alphabet 小组的一部分。链接:deepmind.com/blog/?categ…
Andrej Karpathy 现任特斯拉的人工智能总监,之前曾在 OpenAI 工作过。他在斯坦福大学取得博士学位。他的博客在人工智能社区非常有名,特别是当他在读取博士学位和在 OpenAI 工作时候发表的文章。他写了大量有关计算机视觉以及其他人工智能领域的文章。链接:
- karpathy.github.io/
- medium.com/@karpathy/
Christopher Olah 是在谷歌大脑工作的研究科学家。同时也是 Distill 的一个编辑者之一,还有 Shan Carter 也是。他主要发表的是对于机器学习和深度学习领域的理解神经网络方面的文章。他的目标是用简单的语言解释神经网络的复杂功能。如果你是刚入门神经网络,那么他的博客正好适合作为你的入门教程。链接:colah.github.io/
这是 Denny Britz 的博客。Britz 曾是谷歌大脑团队的一个成员。他写作的主要方向是深度学习,发表有关利用 TensorFlow 来理解、应用和实现神经网络的文章。他还有另外一个博客,主要是写有关初创公司和软件工程方面的文章。链接:
- www.wildml.com/
- blog.dennybritz.com/
Sebastian Ruder 目前正在攻读博士学位,同时也是一家文本分析初创公司--Aylien 的研究科学家。他的文章大多数是关于深度学习和自然语言处理,主要是集中在多任务学习和迁移学习方面。Ruder 通过视觉上以及易懂语言来给出他对公式的理解和解释。他的博客对于新手非常易于理解,也是一个开始学习深度学习知识的很好的教程。链接:ruder.io/
这是属于 Facebook 的人工智能研究博客,主要讨论人工智能、深度学习、机器学习、计算机视觉以及他们现实世界的自身的产品应用。FAIR 小组发表了很多研究论文,这个博客也可以作为创作和提升的媒体。链接:research.fb.com/blog/
这是 Ferenc Huszár 的博客。他是一个来自剑桥大学的博士,目前工作于 Twitter Cortex。他主要是研究概率推理、生成模型、无监督学习以及应用深度学习到上述问题,并发表这些主题相关的文章。链接:www.inference.vc/
7 天入门机器学习(人工智能必学基础课) - 知乎Python 数据挖掘基础教程 - 知乎Python 进阶之 MySQL 入门教程Python 深入浅出进阶课程 - 知乎Python 深度学习之神经网络 - 知乎Python 入门教程完整版(全 547 集)Python 3 天快速入门机器学习项目 - 知乎
深度学习课程笔记(十四)深度强化学习 --- Proximal Policy Optimization (PPO)
?
深度学习课程笔记(十四)深度强化学习 ---? Proximal Policy Optimization (PPO)
2018-07-17?16:54:51?
Reference:??
Code:?
Paper:??
Video Tutorials:??
?
Proximal Policy Optimization Algorithms? (原文解析) :?
Abstract:?
首先要说的是本文提出一种新的 Policy Gradient 的方法,可以在如下两个步骤之间来回迭代进行学习:
1. sampling data through interaction with the environment ;? 通过与环境进行交互,进行采样;
2. optimizing a "surrogate" objective function using stochastic gradient ascent. 利用梯度上升的方法进行代替的目标函数(surrgogate objective function)的优化。
传统的 Policy Gradient Method 仅仅能够利用采样得到的 samples 进行一次更新,就要将这些samples扔掉,重新采样,再实现更新。而本文所提出的方法可以进行 multiple epochs of minibatch updates.
?
Introduction?:?
最近深度学习的方法和强化学习的组合,得到了很多新的成果,如:Deep Q-leanring, "Vanilla" policy gradient method, trust region/natural poliicy gradient methods. 但是这些方法其实都是有其各自不足的地方,如:
Deep Q-learning 在很多简单的任务上却失败了,并且 poorly understood,?
vanilla policy gradient methods 数据的效率和鲁棒性很差;
TRPO(trust region policy optimization)是一个相对较为复杂,并且不能与其他框架兼容的(not compatiable with architecture that including noise (such as dropout) or parameter sharing (between the policy and value function, or with auxiliary tasks)).?
这篇文章旨在通过引入算法获得 data efficiency,and reliable performance of TRPO,来改善当前算法的情况,与此同时,仅仅采用 first-order optimization. 我们提出 a novel objective with clipped probability ratios,为了优化策略,我们用该 policy 进行采样,然后在采样的数据上进行几个 epoch 的更新。作者的实验证明,本文的方法在几个数据集上都取得了不错的效果。
?
2. Background:Policy Optimization?
2.1 Policy Gradient Methods?
2.2TRPO?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?