小卡片遇热就变机器人，不插电就能运动，哈佛&加州理工新研究登上Nature子刊...

郭一璞发自凹非寺?量子位报道 | 公众号 QbitAI

一张白色半透明小卡片，放在200摄氏度的热表面上，就立马卷起来了。

不仅能卷起来，还能一步一步往前跑，每次一个新的面跟热表面接触，就能推动它转向下一个面，研究者们给它取名叫Rollbot。

换个造型，扔进热水里，就能迅速的折叠起来。

从侧面来看，这个叠法简直就像一只青蛙。

如果仔细来看，你会发现小卡片不同的“关节”并不是同步变弯的，有的先行，有的后动，折成一个回形针的样子。

要是从热水里拿出来，温度降下来，它还能再把自己展开铺平。

其实，这是哈佛大学和加州理工共同研发的软体机器人，是的没错，虽然不插电，但不耽误它是一台机器人。只要受热，它就能弯折，实现变身和运动。

由于能在不同环境中灵活“变身”，而且材料结构可调节，设定弯折的环境与角度，将来这种软体机器人可以为医疗和工业领域中的被动控制奠定基础。

好好地机器人，为什么会变弯？

这源于一种特殊的铰链结构。

这些铰链结构是3D打印出来的，由LCE（液晶弹性体）构成。

LCE在一定温度上会变弯，在这个温度之下会伸直，两种状态之间有一个转变温度。

研究者们用到了两种LCE材料，由于骨架柔韧性和交联化学性质的差异，两种LCE材料的转变温度不同，一种的转变温度是24摄氏度，另一种的转变温度是96摄氏度。

两种材料的化学式不同，下图蓝色框内的是转变温度为24摄氏度的LCE材料，橙色框内是转变温度为96摄氏度的LCE材料。

之后需要进行3D打印，由于双层打印横纵排列不同，打印出来的铰链结构会在变温时按照Mountain（山形）和Valley（谷形）结构，分别朝两边弯折。

这样，出来的成品就可以被控制折叠方向，有的棱朝外侧折叠，有的棱朝内侧折叠，全自动变身，无需人工干预。

另外，折叠的角度也是可以控制的，虽然可以达到180度的折叠，不过具体角度和铰链的材料与尺寸息息相关。

因此，使用这种铰链，你就可以提前预设这块小卡片应该朝哪里弯折、在多高温度时候弯折、弯折的角度是多少，这样就可以根据具体的应用场景和环境，设计出合适的软体机器人。

比如，这样的软体机器人结构，总共50个教练，每个都是6毫米宽，0.5毫米厚，可以折叠到180度。

在室温下，它的造型是这样的，两个连接的方块都是展开的：

加热到95度，上面的方块就把自己压扁了：

加热到155度，下面的方块也扁了：

但是如果恢复到室温，两个方块就会都重新展开。

这项研究有两位共同一作。

一位是Arda Kotikian，她之前本科学的就是化学和数学，现在是哈佛John A. Paulson工程与应用数学学院的研究生，一直在研究用LCE材料开发软体机器人。

另一位是Connor McMahan，加州理工学院机械和土木工程博士在读，一直在研究预测形状变化结构。另外，他还是一名NASA Fellow。

Untethered soft robotic matter with passive control of shape morphing and propulsion

― 完 ―

加入社群 | 与优秀的人交流

小程序 | 全类别AI学习教程

量子位?QbitAI ・头条号签约作者

?'?' ? 追踪AI技术和产品新动态

喜欢就点「好看」吧！

年度回顾：一文看尽2018全年AI技术大突破

文章发布于公号【数智物语】?（ID：decision_engine），关注公号不错过每一篇干货。

本文经AI新媒体量子位（公众号 ID: QbitAI）授权转载，转载请联系出处

2018，仍是AI领域激动人心的一年。

这一年成为NLP研究的分水岭，各种突破接连不断；CV领域同样精彩纷呈，与四年前相比GAN生成的假脸逼真到让人不敢相信；新工具、新框架的出现，也让这个领域的明天特别让人期待……

近日，Analytics Vidhya发布了一份2018人工智能技术总结与2019趋势预测报告，原文作者PRANAV DAR。量子位在保留这个报告架构的基础上，对内容进行了重新编辑和补充。

这份报告总结和梳理了全年主要AI技术领域的重大进展，同时也给出了相关的资源地址，以便大家更好的使用、查询。

报告共涉及了五个主要部分：

1，自然语言处理（NLP）

2，计算机视觉

3，工具和库

4，强化学习

5，AI道德

下面，我们就逐一来盘点和展望，嘿喂狗~

自然语言处理（NLP）

2018年在NLP历史上的特殊地位，已经毋庸置疑。

这份报告认为，这一年正是NLP的分水岭。2018年里，NLP领域的突破接连不断：ULMFiT、ELMo、最近大热的BERT……

迁移学习成了NLP进展的重要推动力。从一个预训练模型开始，不断去适应新的数据，带来了无尽的潜力，甚至有“NLP领域的ImageNet时代已经到来”一说。

■ ULMFiT

这个缩写，代表“通用语言模型的微调”，出自ACL 2018论文：Universal Language Model Fine-tuning for Text Classification。

正是这篇论文，打响了今年NLP迁移学习狂欢的第一枪。

论文两名作者一是Fast.ai创始人Jeremy Howard，在迁移学习上经验丰富；一是自然语言处理方向的博士生Sebastian Ruder，他的NLP博客几乎所有同行都在读。

两个人的专长综合起来，就有了ULMFiT。想要搞定一项NLP任务，不再需要从0开始训练模型，拿来ULMFiT，用少量数据微调一下，它就可以在新任务上实现更好的性能。

他们的方法，在六项文本分类任务上超越了之前最先进的模型。

详细的说明可以读他们的论文：

https://arxiv.org/abs/1801.06146

Fast.ai网站上放出了训练脚本、模型等：

http://nlp.fast.ai/category/classification.html

■ ELMo

这个名字，当然不是指《芝麻街》里那个角色，而是“语言模型的词嵌入”，出自艾伦人工智能研究院和华盛顿大学的论文Deep contextualized word representations，NLP顶会NAACL HLT 2018的优秀论文之一。

ELMo用语言模型（language model）来获取词嵌入，同时也把词语所处句、段的语境考虑进来。

这种语境化的词语表示，能够体现一个词在语法语义用法上的复杂特征，也能体现它在不同语境下如何变化。

当然，ELMo也在试验中展示出了强大功效。把ELMo用到已有的NLP模型上，能够带来各种任务上的性能提升。比如在机器问答数据集SQuAD上，用ELMo能让此前最厉害的模型成绩在提高4.7个百分点。

这里有ELMo的更多介绍和资源：

https://allennlp.org/elmo

■ BERT

说BERT是2018年最火的NLP模型，一点也不为过，它甚至被称为NLP新时代的开端。

它由Google推出，全称是Bidirectional?Encoder?Representations from?Transformers，意思是来自Transformer的双向编码器表示，也是一种预训练语言表示的方法。

从性能上来看，没有哪个模型能与BERT一战。它在11项NLP任务上都取得了最顶尖成绩，到现在，SQuAD 2.0前10名只有一个不是BERT变体：

如果你还没有读过BERT的论文，真的应该在2018年结束前补完这一课：

https://arxiv.org/abs/1810.04805

另外，Google官方开源了训练代码和预训练模型：

https://github.com/google-research/bert

如果你是PyTorch党，也不怕。这里还有官方推荐的PyTorch重实现和转换脚本：

https://github.com/huggingface/pytorch-pretrained-BERT

■ PyText

BERT之后，NLP圈在2018年还能收获什么惊喜？答案是，一款新工具。

就在上周末，Facebook开源了自家工程师们一直在用的NLP建模框架PyText。这个框架，每天要为Facebook旗下各种应用处理超过10亿次NLP任务，是一个工业级的工具包。

（Facebook开源新NLP框架：简化部署流程，大规模应用也OK）

PyText基于PyTorch，能够加速从研究到应用的进度，从模型的研究到完整实施只需要几天时间。框架里还包含了一些预训练模型，可以直接拿来处理文本分类、序列标注等任务。

想试试？开源地址在此：

https://github.com/facebookresearch/pytext

■?Duplex

如果前面这些研究对你来说都太抽象的话，Duplex则是NLP进展的最生动例证。

名字有点陌生？不过这个产品你一定听说过，它就是Google在2018年I/O开发者大会上展示的“打电话AI”。

它能主动打电话给美发店、餐馆预约服务，全程流畅交流，简直以假乱真。Google董事长John Hennessy后来称之为“非凡的突破”，还说：“在预约领域，这个AI已经通过了图灵测试。”

Duplex在多轮对话中表现出的理解能力、合成语音的自然程度，都是NLP目前水平的体现。

如果你还没看过它的视频……

■?2019年展望

NLP在2019年会怎么样？我们借用一下ULMFiT作者Sebastian Ruder的展望：

1、预训练语言模型嵌入将无处不在：不用预训练模型，从头开始训练达到顶尖水平的模型，将十分罕见。

2、能编码专业信息的预训练表示将会出现，这是语言模型嵌入的一种补充。到时候，我们就能根据任务需要，把不同类型的预训练表示结合起来。

3、在多语言应用、跨语言模型上，将有更多研究。特别是在跨语言词嵌入的基础上，深度预训练跨语言表示将会出现。

计算机视觉

今年，无论是图像还是视频方向都有大量新研究问世，有三大研究曾在CV圈掀起了集体波澜。

■ BigGAN

今年9月，当搭载BigGAN的双盲评审中的ICLR 2019论文现身，行家们就沸腾了：简直看不出这是GAN自己生成的。

在计算机图像研究史上，BigGAN的效果比前人进步了一大截。比如在ImageNet上进行128×128分辨率的训练后，它的Inception Score（IS）得分166.3，是之前最佳得分52.52分3倍。

除了搞定128×128小图之外，BigGAN还能直接在256×256、512×512的ImageNet数据上训练，生成更让人信服的样本。

在论文中研究人员揭秘，BigGAN的惊人效果背后，真的付出了金钱的代价，最多要用512个TPU训练，费用可达11万美元，合人民币76万元。

不止是模型参数多，训练规模也是有GAN以来最大的。它的参数是前人的2-4倍，批次大小是前人的8倍。

相关地址

研究论文： https://openreview.net/pdf?id=B1xsqj09Fm

■ Fast.ai 18分钟训练整个ImageNet

在完整的ImageNet上训练一个模型需要多久？各大公司不断下血本刷新着记录。

不过，也有不那么烧计算资源的平民版。

今年8月，在线深度学习课程Fast.ai的创始人Jeremy Howard和自己的学生，用租来的亚马逊AWS的云计算资源，18分钟在ImageNet上将图像分类模型训练到了93%的准确率。

前前后后，Fast.ai团队只用了16个AWS云实例，每个实例搭载8块英伟达V100 GPU，结果比Google用TPU Pod在斯坦福DAWNBench测试上达到的速度还要快40%。

这样拔群的成绩，成本价只需要40美元，Fast.ai在博客中将其称作人人可实现。

相关地址：

Fast.ai博客介绍： https://www.fast.ai/2018/08/10/fastai-diu-imagenet/

■?vid2vid技术

今年8月，英伟达和MIT的研究团队高出一个超逼真高清视频生成AI。

只要一幅动态的语义地图，就可获得和真实世界几乎一模一样的视频。换句话说，只要把你心中的场景勾勒出来，无需实拍，电影级的视频就可以自动P出来：

除了街景，人脸也可生成：

这背后的vid2vid技术，是一种在生成对抗性学习框架下的新方法：精心设计的生成器和鉴别器架构，再加上时空对抗目标。

这种方法可以在分割蒙版、素描草图、人体姿势等多种输入格式上，实现高分辨率、逼真、时间相干的视频效果。

好消息，vid2vid现已被英伟达开源。

相关地址

研究论文： https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf

GitHub地址 https://github.com/NVIDIA/vid2vid

■?2019趋势展望

Analytics Vidhya预计，明年在计算机视觉领域，对现有方法的改进和增强的研究可能多于创造新方法。

在美国，政府对无人机的限令可能会稍微“松绑”，开放程度可能增加。而今年大火的自监督学习明年可能会应用到更多研究中。

Analytics Vidhya对视觉领域也有一些期待，目前来看，在CVPR和ICML等国际顶会上公布最新研究成果，在工业界的应用情况还不乐观。他希望在2019年，能看到更多的研究在实际场景中落地。

Analytics Vidhya预计，视觉问答（Visual Question Answering，VQA）技术和视觉对话系统可能会在各种实际应用中首次亮相。

工具和框架

哪种工具最好？哪个框架代表了未来？这都是一个个能永远争论下去的话题。

没有异议的是，不管争辩的结果是什么，我们都需要掌握和了解最新的工具，否则就有可能被行业所抛弃。

开发深度学习网络｜强化学习系列之翻译OpenAI用户手册(三) OpenAI｜教程｜翻译｜强化学习

深度开发简介,深度开发1ⅴ3

强化学习系列文章第一章强化学习入门第二章翻译OpenAI用户手册(一) 第三章翻译OpenAI用户手册(二) 第四章翻译OpenAI用户手册(三) 目录 1. 强化学习中的关键概念 【开发深度学习网络|强化学习系列之翻译OpenAI用户手册(三)】1.1 强化学习能做什么？ 1.2 关键的概念和术语 1.3 状态和观察 1.4 行为空间 1.5 策略 1.6 确定性策略 1.7 随机策略 1. 强化学习中的关键概念欢迎来到我们关于强化学习的介绍!在此，我们旨在使您熟悉：

用来讨论这个问题的语言和符号，
对强化学习算法的作用做了一个高层次的解释(尽管我们通常避免讨论它们是如何做到这一点的)，
还有一些算法基础上的核心数学。

简而言之，强化学习就是研究智能体以及它们如何通过尝试和错误来学习。它将奖励或惩罚智能体的行为使其更有可能在未来重复或放弃该行为这一观点规则化。 1.1 强化学习能做什么？深度学习方法最近获得了各种各样的成功。例如，它被用来教计算机在模拟中控制机器人……或者在真实世界中。文章图片文章图片它还被用于为复杂的战略游戏创造突破性的人工智能，最著名的是围棋Alphago和Dota，它教计算机从原始像素玩雅达利游戏，训练模拟机器人遵循人类的指令。 1.2 关键的概念和术语文章图片图1 智能体和环境交互循环深度学习的主要特征是agent和environment。环境是agent生活和相互作用的世界。在交互的每一步中，agent看到对世界状态的观察(可能是部分的)，然后决定要采取的行动。当智能体对环境起作用时环境会发生变化，但环境本身也可能发生变化。 agent还会感知到来自环境的奖励信号，这个数字告诉它当前世界的状态是好是坏。代理人的目标是最大化其累积报酬，称为回报。强化学习方法是agent通过学习行为来实现其目标的方法。为了更具体地讨论深度学习是做什么的，我们需要引入额外的术语。我们得谈谈如下几个术语：

状态和观察；
行为空间；
策略；
轨迹；
不同的回报公式；
强化学习最优化问题；
值函数。

1.3 状态和观察状态s是一个是对世界状态的完整描述。世界上没有什么信息是瞒着状态的。观察o是对状态的部分描述，可能会省略一些信息。在深度强化学习中，我们几乎总是用实值向量、矩阵或高阶张量来表示状态和观测值。例如，一个视觉观察可以用其像素值的RGB矩阵来表示; 机器人的状态可以用它的关节角和速度来表示。当智能体能够观察到环境的完整状态时，我们说环境是完全观察到的。当智能体只能看到部分观察，我们说环境是部分观察。你应该知道的：强化学习符号有时会把状态s的符号，放在技术上更适合为观察o写符号的地方。具体地说，当我们讨论智能体如何决定一个行为时，这种情况就会发生:我们通常用符号表示行为取决于状态，而实际上，行为取决于观察，因为智能体无法访问状态。在我们的指南中，我们将遵循表示法的标准约定，但是从上下文的含义来看应该是清楚的。如果有不清楚的地方，请提出问题!我们的目标是教导，而不是混淆。 1.4 行为空间不同的环境允许不同类型的操作。给定环境中所有有效操作的集合通常称为行为空间。一些环境，如Atari和Go，具有离散的动作空间，其中只有有限数量的动作可供代理使用。其他环境，比如agent在物理世界中控制机器人的环境，具有连续的动作空间。在连续空间中，动作是实值向量。这种区别对于深度强化学习中的方法有一些非常深刻的影响。有些算法家族只能直接应用于一种情况，而必须为另一种情况进行大量的修改。 1.5 策略策略是agent用来决定采取什么行动的规则。它可以是确定性的，在这种情况下，它通常表示为：文章图片也可以是随机的，通常用π表示: 文章图片因为策略本质上是智能体的大脑，用“策略”这个词代替“智能体”是很常见的，比如说“策略试图最大化回报”。在深度强化学习中，我们处理参数化策略:策略的输出是可计算的函数，依赖于一组参数(如神经网络的权重和偏差)，我们可以通过一些优化算法调整这些参数来改变行为。我们经常用文章图片来表示这种政策的参数,然后将其作为下标写入策略符号，以突出显示连接: 文章图片 1.6 确定性策略例子:确定性的政策。下面是使用为PyTorch中的连续操作空间构建简单的确定性策略的代码片段。这构建了一个多层感知器(MLP)网络，它有两个大小为64的隐藏层和tanh激活函数。如果obs是一个包含一批观测数据的Numpy数组，则可以使用pi_net来获取一批操作，具体如下: 你应该知道的：如果您不熟悉神经网络的内容，请不必担心――本教程将关注强化学习，而不是神经网络方面的内容。因此，您可以跳过这个示例，稍后再回到它。但我们认为，如果你已经知道了，这可能会有帮助。 1.7 随机策略深度强化学习中最常见的两种随机策略是分类策略和对角高斯策略。分类策略可用于离散行动空间，对角高斯策略可用于连续行动空间。在使用和训练随机策略时，两个关键的计算是至关重要的:

根据策略的采样操作，
计算特定行为的对数概率，文章图片

接下来，我们将描述如何对分类高斯策略和对角高斯策略进行这些操作。分类策略：分类策略就像离散动作上的分类器。你建立的神经网络分类策略是与你建立分类器相同的:输入是观察,其次是一些层数(卷积或紧密连接,根据输入的形式),然后最后一个线性层为每个行动给你分对数,后跟一个softmax分对数转化为概率。采样：给定每个动作的概率，像PyTorch和Tensorflow这样的框架都有内置的采样工具。例如，请参阅PyTorch中的分类分布文档。Categorical distributions in PyTorch, torch.multinomial, tf.distributions.Categorical, or tf.multinomial. 对数概率：表示概率的最后一层为文章图片。它是一个向量，有多少项就有多少动作，所以我们可以把动作当作向量的索引。一个动作a的对数概率可以通过对向量进行索引得到: 文章图片对角高斯策略：多元高斯分布(或多元正态分布，如果你更喜欢这样叫的话)由均值向量文章图片、协方差矩阵文章图片描述。对角高斯分布是协方差矩阵只有对角上的项的一种特殊情况。因此，我们可以用一个向量来表示它。对角高斯策略总是有一个神经网络，从观察映射到平均行为文章图片。协方差矩阵有两种不同的表示方式。第一种方式：只有一个对数标准差文章图片的向量，这不是一个状态函数: 文章图片是独立的参数。(您应该知道:我们的VPG、TRPO和PPO实现就是这样做的。) 第二种方式：有一个神经网络可以从状态映射到对数标准差文章图片。它可以选择与平均网络共享一些层。注意，在这两种情况下，我们输出的是对数标准差，而不是直接的标准差。这是因为对数stds可以自由获取(负无穷大，正无穷大)中的任何值，而stds必须是非负的。如果您不需要强制执行这些类型的约束，那么训练参数会更容易。对对数标准差取幂就能得到标准差，所以我们通过这种表示不会有任何损失。采样：给定平均动作文章图片和标准差文章图片，以及来自球面高斯文章图片的噪声向量z，可以计算出动作采样：文章图片其中文章图片表示两个向量的元素积。标准框架有内置的方法来生成噪声向量，如 torch.normal 或者 tf.random_normal。或者，您可以构建分布对象，例如通过 torch.distributions.Normal or tf.distributions.Normal，并使用它们来生成样本。(后一种方法的优点是，这些对象还可以为您计算对数概率。) 对数概率：对于均值为文章图片且标准差文章图片的对角高斯函数，k维行动a的对数概率由如下公式给出：文章图片