火爆全网的ChatGPT,傻妞对接OpenAI人工智障的小白教程
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
傻妞升级脚本:
首先你得在傻妞web后台插件中心订阅下这个库
接着就开始注册一个OpenAI的账号、需要一个邮箱,然后加一个国外的手机号(这个后面有教程)
打开 点击右上角的 sign up 注册账号
好了难题来了,需要绑定一个国外的手机号,国内的无法绑定我这边实在闲鱼花2块钱绑定的一个,闲鱼关键词:openai我找的这个,可能随时没号了,2块钱还挺便宜的
绑定完后,点击右上角头像-View API keys创建一个token
然后给傻妞使用命令
当然你也可以直接在傻妞存储桶里面搜otto进去新建一个保存
免责声明: 本站提供的资源,都来自网络,版权争议与本站无关,所有内容及软件的文章仅限用于学习和研究目的。不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负,我们不保证内容的长久可用性,通过使用本站内容随之而来的风险与本站无关,您必须在下载后的24个小时之内,从您的电脑/手机中彻底删除上述内容。如果您喜欢该程序,请支持正版软件,购买注册,得到更好的正版服务。
灰信网(软件开发博客聚合)
灰产交流论坛,灰聊是什么意思,灰产论坛,香港电视连续剧《灰网》国语版本文来源:深度强化学习实验室
作者:侯宇清,陈玉荣
深度强化学习是深度学习与强化学习相结合的产物,它集成了深度学习在视觉等感知问题上强大的理解能力,以及强化学习的决策能力,实现了端到端学习。深度强化学习的出现使得强化学习技术真正走向实用,得以解决现实场景中的复杂问题。从2013年DQN(深度Q网络,deep Q network)出现到目前为止,深度强化学习领域出现了大量的算法,以及解决实际应用问题的论文,本文将阐述深度强化学习的发展现状,并对未来进行展望。
我正在编写AI基础系列,目前已经发布:
AI 基础:简易数学入门
AI 基础:Python开发环境设置和小技巧
AI 基础:Python 简易入门
AI 基础:正则表达式
AI 基础:Numpy 简易入门
AI 基础:Pandas 简易入门
AI 基础:Scipy(科学计算库) 简易入门
AI基础:数据可视化简易入门(matplotlib和seaborn)
AI基础:机器学习库Scikit-learn的使用
AI基础:机器学习简易入门
AI基础:机器学习的损失函数
AI基础:机器学习和深度学习的练习数据
AI基础:特征工程-类别特征
AI基础:特征工程-数字特征处理
AI基础:自然语言处理基础之序列模型
AI基础:特征工程-文本特征处理
AI基础:词嵌入基础和Word2Vec
AI基础:图解Transformer
AI基础:一文看懂BERT
AI基础:入门人工智能必看的论文
AI基础:走进深度学习
AI基础:优化算法
AI基础:卷积神经网络
AI基础:经典卷积神经网络
AI基础:深度学习论文阅读路线(127篇经典论文下载)
AI基础:数据增强方法综述
AI基础:论文写作工具
后续持续更新
|| 一、深度强化学习的泡沫
2015 年,DeepMind 的 Volodymyr Mnih 等研究员在《自然》杂志上发表论文 Human-level control through deep reinforcement learning[1],该论文提出了一个结合深度学习(DL)技术和强化学习(RL)思想的模型 Deep Q-Network(DQN),在 Atari 游戏平台上展示出超越人类水平的表现。自此以后,结合 DL 与 RL 的深度强化学习(Deep Reinforcement Learning, DRL)迅速成为人工智能界的焦点。
过去三年间,DRL 算法在不同领域大显神通:在视频游戏 [1]、棋类游戏上打败人类顶尖高手 [2,3];控制复杂的机械进行操作 [4];调配网络资源 [5];为数据中心大幅节能 [6];甚至对机器学习算法自动调参 [7]。各大高校和企业纷纷参与其中,提出了眼花缭乱的 DRL 算法和应用。可以说,过去三年是 DRL 的爆红期。DeepMind 负责 AlphaGo 项目的研究员 David Silver 喊出“AI=RL + DL”,认为结合了 DL 的表示能力与 RL 的推理能力的 DRL 将会是人工智能的终极答案。
1.1 DRL 的可复现性危机
然而,研究人员在最近半年开始了对 DRL 的反思。由于发表的文献中往往不提供重要参数设置和工程解决方案的细节,很多算法都难以复现。2017 年 9 月,著名 RL 专家 Doina Precup 和 Joelle Pineau 所领导的的研究组发表了论文 Deep Reinforcement Learning that Matters[8],直指当前 DRL 领域论文数量多却水分大、实验难以复现等问题。该文在学术界和工业界引发热烈反响。很多人对此表示认同,并对 DRL 的实际能力产生强烈怀疑。
其实,这并非 Precup& Pineau 研究组第一次对 DRL 发难。早在 2 个月前,该研究组就通过充足的实验对造成 DRL 算法难以复现的多个要素加以研究,并将研究成果撰写成文 Reproducibility of Benchmarked Deep Reinforcement Learning Tasks for Continuous Control[9]。同年 8 月,他们在 ICML 2017 上作了题为“Reproducibility of Policy Gradient Methods for Continuous Control”的报告 [10],通过实例详细展示了在复现多个基于策略梯度的算法的过程中,由于种种不确定性因素导致的复现困难。12 月,在万众瞩目的 NIPS 2017 DRL 专题研讨会上,Joelle Pineau 受邀作了题为“Reproducibility of DRL and Beyond”的报告 [11]。报告中,Pineau 先介绍了当前科研领域的“可复现性危机” :在《自然》杂志的一项调查中,90% 的被访者认为“可复现性”问题是科研领域存在的危机,其中,52% 的被访者认为这个问题很严重。在另一项调查中,不同领域的研究者几乎都有很高的比例无法复现他人甚至自己过去的实验。可见“可复现性危机”有多么严峻!Pineau 针对机器学习领域发起的一项调研显示,同样有 90% 的研究者认识到了这个危机。
机器学习领域存在严重的“可复现性危机”[11]
随后,针对 DRL 领域,Pineau 展示了该研究组对当前不同 DRL 算法的大量可复现性实验。实验结果表明,不同 DRL 算法在不同任务、不同超参数、不同随机种子下的效果大相径庭。在报告后半段,Pineau 呼吁学界关注“可复现性危机”这一问题,并根据她的调研结果,提出了 12 条检验算法“可复现性”的准则,宣布计划在 ICLR 2018 开始举办“可复现实验挑战赛”(“可复现危机”在其他机器学习领域也受到了关注,ICML 2017 已经举办了 Reproducibility in Machine Learning Workshop,并将在今年继续举办第二届),旨在鼓励研究者做出真正扎实的工作,抑制机器学习领域的泡沫。Pineau & Precup 研究组的这一系列研究获得了广泛关注。
Pineau 基于大量调查提出的检验算法“可复现性”准则 [11]
1.2 DRL 研究存在多少坑?
同样在 12 月,Reddit 论坛上也开展了关于机器学习不正之风的热烈讨论 [12]。有人点名指出,某些 DRL 代表性算法之所以在模拟器中取得了优秀却难以复现的表现,是因为作者们涉嫌在实验中修改模拟器的物理模型,却在论文中对此避而不谈。
对现有 DRL 算法的批判浪潮仍旧不断涌来。2018 年的情人节当天,曾经就读于伯克利人工智能研究实验室(Berkeley Artificial Intelligence Research Lab, BAIR)的 Alexirpan 通过一篇博文 Deep Reinforcement Learning Doesn't Work Yet[13] 给 DRL 圈送来了一份苦涩的礼物。他在文中通过多个例子,从实验角度总结了 DRL 算法存在的几大问题:
样本利用率非常低;
最终表现不够好,经常比不过基于模型的方法;
好的奖励函数难以设计;
难以平衡“探索”和“利用”, 以致算法陷入局部极小;
对环境的过拟合;
灾难性的不稳定性…
虽然作者在文章结尾试着提出 DRL 下一步应该解决的一系列问题,很多人还是把这篇文章看做 DRL 的“劝退文”。几天后,GIT 的博士生 Himanshu Sahni 发表博文 Reinforcement Learning never worked, and 'deep'>
另一位 DRL 研究者 Matthew Rahtz 则通过讲述自己试图复现一个 DRL 算法的坎坷历程来回应 Alexirpan,让大家深刻体会了复现 DRL 算法有多么难 [15]。半年前,Rahtz 出于研究兴趣,选择对 OpenAI 的论文 Deep Reinforcement Learning from Human Preferences 进行复现。在复现的过程中,几乎踩了 Alexirpan 总结的所有的坑。他认为复现 DRL 算法与其是一个工程问题,更不如说像一个数学问题。“它更像是你在解决一个谜题,没有规律可循,唯一的方法是不断尝试,直到灵感出现彻底搞明白。……很多看上去无关紧要的小细节成了唯一的线索……做好每次卡住好几周的准备。”Rahtz 在复现的过程中积累了很多宝贵的工程经验,但整个过程的难度还是让他花费了大量的金钱以及时间。他充分调动不同的计算资源,包括学校的机房资源、Google 云计算引擎和 FloydHub,总共花费高达 850 美元。可就算这样,原定于 3 个月完成的项目,最终用了 8 个月,其中大量时间用在调试上。
复现 DRL 算法的实际时间远多于预计时间 [15]
Rahtz 最终实现了复现论文的目标。他的博文除了给读者详细总结了一路走来的各种宝贵工程经验,更让大家从一个具体事例感受到了 DRL 研究实际上存在多大的泡沫、有多少的坑。有人评论到,“DRL 的成功可能不是因为其真的有效,而是因为人们花了大力气。”
很多著名学者也纷纷加入讨论。目前普遍的观点是,DRL 可能有 AI 领域最大的泡沫。机器学习专家 Jacob Andreas 发了一条意味深长的 tweet 说:
Jacob Andreas 对 DRL 的吐槽
DRL 的成功归因于它是机器学习界中唯一一种允许在测试集上训练的方法。
从 Pineau & Precup 打响第一枪到现在的 1 年多时间里,DRL 被锤得千疮百孔,从万众瞩目到被普遍看衰。就在笔者准备投稿这篇文章的时候,Pineau 又受邀在 ICLR 2018 上作了一个题为 Reproducibility, Reusability, and Robustness in DRL 的报告 [16],并且正式开始举办“可复现实验挑战赛”。看来学界对 DRL 的吐槽将会持续,负面评论还将持续发酵。那么, DRL 的问题根结在哪里?前景真的如此黯淡吗?如果不与深度学习结合,RL 的出路又在哪里?
在大家纷纷吐槽 DRL 的时候,著名的优化专家 Ben Recht,从另一个角度给出一番分析。
|| 二、免模型强化学习的本质缺陷
RL 算法可以分为基于模型的方法(Model-based)与免模型的方法(Model-free)。前者主要发展自最优控制领域。通常先通过高斯过程(GP)或贝叶斯网络(BN)等工具针对具体问题建立模型,然后再通过机器学习的方法或最优控制的方法,如模型预测控制(MPC)、线性二次调节器(LQR)、线性二次高斯(LQG)、迭代学习控制(ICL)等进行求解。而后者更多地发展自机器学习领域,属于数据驱动的方法。算法通过大量采样,估计代理的状态、动作的值函数或回报函数,从而优化动作策略。
基于模型 vs. 免模型 [17]
从年初至今,Ben Recht 连发了 13 篇博文,从控制与优化的视角,重点探讨了 RL 中的免模型方法 [18]。Recht 指出免模型方法自身存在以下几大缺陷:
免模型方法无法从不带反馈信号的样本中学习,而反馈本身就是稀疏的,因此免模型方向样本利用率很低,而数据驱动的方法则需要大量采样。比如在 Atari 平台上的《Space Invader》和《Seaquest》游戏中,智能体所获得的分数会随训练数据增加而增加。利用免模型 DRL 方法可能需要 2 亿帧画面才能学到比 本文约2300字,建议阅读6分钟 西班牙加泰罗尼亚画家 https://baike.baidu.com/item/%E5%8A%A0%E6%B3%B0%E7%BD%97%E5%B0%BC%E4%BA%9A 超现实主义作品 https://baike.baidu.com/item/%E8%B6%85%E7%8E%B0%E5%AE%9E%E4%B8%BB%E4%B9%89/3388 科幻机器人WALL・E https://www.pixar.com/feature-films/walle OpenAI是一个位于旧金山的非营利性人工智能研究和在研实验室,由埃隆・马斯克(Elon Musk),萨姆・奥特曼(Sam Altman)等人于2015年创立。他们承诺投资10亿美元用于开发可持续和安全的AI系统。OpenAI实验室成立的主要目的是关注人工智能的存在风险(即一个人工智能的巨大进步有一天可能导致人类灭绝或其他无法挽回的全球性灾难)。即使埃隆・马斯克(Elon Musk)已经从OpenAI董事会辞职,但他仍然是实验室的捐助者。这家非营利性母公司OpenAI Inc.也拥有一个营利性OpenAI LP公司。2019年,微软向营利性子公司OpenAI LP投资了10亿美元。 更改对象的属性以及对象在图像中出现的次数: Figure 2. 文字提示:一组放在桌上的眼镜合集(截图来自于作者) 同时绘制多个对象并控制它们的空间关系: 控制场景的视点和渲染场景的3D样式: Figu 人工智能框架入门教程交流 ai智能推荐算法
人工智能框架图,人工智能框架结构,常见的人工智能框架有哪些?讨论其各自的优缺点?,人工智能基本框架