ubuntu如何归档
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
?
OpenAI简介
OpenAI’s mission is to ensure the safe development of AGI and the broad distribution of benefits from AI more generally. Teaching tools like Spinning Up help us make progress on both of these objectives.
环境:Ubuntu16.04.3(VM虚拟机)
1、安装Python(Anaconda)
A:安装Anconda,Anconda官方教程.Anconda安装个人笔记
B:在conda环境中配置spinning up
conda create -n spinningup python=3.6
Tip:参照pip安装笔记修改软件源,可以加快安装速度。
激活spinningup环境
source activate spinningup
?
2、安装OpenMPI
sudo apt-get update && sudo apt-get install libopenmpi-dev
3、安装Spinnin Up
git clone https://github.com/openai/spinningup.git cd spinningup pip install -e .
4、检查安装
python -m spinup.run ppo --hid "[32,32]" --env LunarLander-v2 --exp_name installtest --gamma 0.999
此命令用于在LunarLander-v2 中训练PPO。这个会训练大概10分钟,并且不会自己完成,会训练很久,再次期间当数据被输入,你便会看到训练的进程。
在完成训练之后,查看训练的策略。
python -m spinup.run test_policy data/installtest/installtest_s0
然后输出结果
python -m spinup.run plot data/installtest/installtest_s0
5、安装MuJoCo(可选)
A:进入github上的mujoco-py,根据安装指导完成安装;
B:获取MuJoCo licence(个人30天,学生一年);
C:安装MuJoCo之后,安装对应的Gym环境
pip install gym[mujoco,robotics]
D:检查PPO是否可以在?Walker2d-v2环境中正常工作
python -m spinup.run ppo --hid "[32,32]" --env Walker2d-v2 --exp_name mujocotest
?
量子计算专家acm 奖得主加盟 量子计算与云计算
量子计算专家是谁,量子计算科学家,量子计算科技,量子 专家近日,量子计算专家、ACM计算奖得主Scott Aaronson通过博客宣布,将于本周离开得克萨斯大学奥斯汀分校(UT Austin)一年,并加盟人工智能研究公司OpenAI。
Scott Aaronson,图片来自麻省理工学院(MIT)
在OpenAI,Aaronson将研究人工智能安全和一致性(AI Safety and Alignment)的理论基础,并计划于一年后重返全职教学岗位。负责OpenAI人工智能一致性团队的Jan Leike在推特上表示,“非常期待与富有盛名的Scott Aaronson一同工作。”公司总裁兼联合创始人Greg Brockman转发推文称:“AI一致性需要来自众多领域的人才,其中包括许多棘手的开放性问题,但我们即将开始取得快速进展。欢迎你,Scott!”
图片来自推特
OpenAI是一家研究和部署人工智能的公司,于2015年由马斯克、美国创业孵化器Y Combinator总裁阿尔特曼、全球在线支付平台PayPal联合创始人彼得・蒂尔等硅谷科技大亨创立。公司核心宗旨在于“实现安全的通用人工智能(AGI)”,使其有益于人类。通用人工智能作为一种高度自主的系统,将可以在大多数具有经济价值的工作上超越人类能力。此次宣布加盟OpenAI的Aaronson在量子计算领域颇负盛名。作为得克萨斯大学奥斯汀分校(UT Austin)计算机科学教授,Aaronson还担任该校量子信息中心主任。此前,他曾在麻省理工学院教授电气工程和计算机科学长达九年。其主要研究领域为理论计算机科学,研究兴趣集中在量子计算机的能力和局限问题,以及更广泛的计算复杂性理论等。Aaronson曾获得过多项荣誉,包括Tomassoni-Chisesi物理学奖(2018)、Simons研究员奖(2017)和美国国家科学基金会的Alan T. Waterman奖(2012)。
Aaronson获得2020年ACM计算奖,截图来自ACM
2020年,中国科学技术大学教授、中国科学院院士潘建伟团队成功构建了76个光子100个模式的高斯玻色取样量子计算原型机“九章”,克服了谷歌基于“悬铃木”超导处理器的随机线路取样实验中,量子优越性依赖于样本数量的漏洞。“九章”实验完成后,Aaronson因在理论方面提出玻色取样算法和证明计算复杂度等突出贡献,于2021年4月获得由国际计算机协会颁发的2020年ACM计算奖。ACM官方颁奖公告称,“量子计算旨在利用量子物理学定律,以构建量子计算设备,使其解决传统计算机无法解决或不能在合理时间内解决的问题。Aaronson展示了计算复杂性理论结果如何为量子物理学定律提供新的见解,并明确了量子计算机的能力和局限。”同时,他还帮助建立了量子优越性的概念,即量子设备可以在合理时间内解决传统计算机无法解决的问题,并为此建立了许多量子优越性实验的理论基础。ACM主席Gabriele Kotsis认为,Aaronson的贡献并不局限于量子计算,在计算复杂性理论和物理学等领域也产生了重大影响。
图片来自Mike MacKenzie
加盟OpenAI后,Aaronson将进行人工智能安全和一致性问题的理论研究,并进一步思考计算复杂性如何帮助理解怎样让AI做人们想做的事,而非做人们不想做的事。Aaronson在博客中表示,在未来一年研究中,他主要对两方面比较感兴趣:一是短期内在该领域可以快速测试新的想法,以及研究AI滥用的相关社会问题,即AI被广泛应用于垃圾邮件、监视、宣传和其他不法目的。二是从长期角度来看,许多研究者开始担心如果AI在所有领域超越人类能力,会产生怎样的后果。近期,AI带来的伦理与安全问题再度引发热议。谷歌工程师Blake Lemoine通过与AI的深度对话,认为名为LaMDA的AI具有人类意识,具备与人类孩子相当的感知、表达思想和感受的能力。而根据谷歌公布的消息,该工程师已被停职。AI未来是否会完全有益于人类?其中存在的安全性问题如何防范?AI一致性(AI Alignment)正是研究人工智能如何向善并服务于人类的新方向。Aaronson表示,通过弄清楚如何使人工智能与现今的人类价值观保持一致,不断地将理论思想与现实进行碰撞,从而建立起相关知识,使AI在未来更好地与人类价值观保持一致。
追梦人埃隆马斯克和他的梦spacex 埃隆马斯克spacex猛禽发动机推力
埃隆·马斯克的梦想,埃隆马斯克正在实现人类的梦想前几天,SpaceX的猎鹰火箭刷屏了,所谓“十年寒窗无人问,一举成名天下知”。
在人工智能这样的领域,当然少不了“钢铁侠”马斯克的身影,我们来关注他的另一个投资:OpenAI
OpenAI的官网(openai.com)介绍中,定位为一家非盈利的研究公司,致力于通往安全通用人工智能(Safe AGI)路径的探索与实践。
这里有两个关键词:安全、通用
关于安全,马斯克是一个人工智能威胁论者,曾警示公众“我们需要万分警惕人工智能,它们比核武器更加危险!”
人工智能的研究目的是创造智能体,帮助人类更有效地解决问题。然而在《西部世界》、《银翼杀手》等科幻片中,人工智能也经常让人类陷入噩梦。
马斯克认为,对付这项威胁的方法,是对它的发明、创造和使用进行有效的监管。
关于通用(General),则是所谓“弱”人工智能与“强”人工智能的分水岭。
从本专栏的前文介绍中,大家可以知道,人工智能的基本方法是通过标签化数据对模型进行训练,图像识别要用海量图片作为数据输入,而语音识别要用海量语音作为数据输入。因此,训练出来的人工智能,都是某一领域的专家,但不能跨领域,是所谓的“弱”人工智能。
如何训练出既能读书写字又会唱歌跳舞,琴棋书画样样皆通的“强”人工智能,是一项很大的挑战。
DeepMind在这一领域作了一些尝试:
AlphaGo学习了人类棋手的经验数据,以4:1战胜人类超一流棋手李世石
AlphaGo Zero是零经验,利用自己与自己下棋产生的数据进行学习(本专栏后文将介绍此处用到的强化学习),以100:0战胜AlphaGo
AlphaZero横跨围棋、国际象棋、将棋,8小时训练战胜AlphaGo,4小时训练战胜可碾压当年“深蓝”的顶级国际象棋程序Stockfish,2小时训练战胜顶级将棋程序Elmo
然而,棋类领域的通用AI,还只算得上是通用人工智能走出的一小步......
回到OpenAI,这家公司提供了人工智能研究领域的成果、平台与工具。
Gym:提供了强化学习算法的训练环境。你可以创建自己的人工智能,零经验学习如何玩电子竞技游戏。(后文将作介绍这一非常有趣的领域)
Universe:提供了一套通用性问题的训练环境。它将人类世界的一类问题,抽象为观察(屏幕像素等)、操作(键盘、鼠标等)、激励(游戏得分、任务成功等信息)的通用界面,智能代理可以像人类使用电脑一样,经由通用界面,与待解决问题进行交互。