OpenAI新研究:通过非监督学习提升NLP任务表现
淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】
今天,OpenAI在其官方博客上发布了一篇题为《用非监督学习来提升语言理解》的文章,介绍了他们最近的一项研究:Improving Language Understanding by Generative Pre-Training。
这项研究提出了一种将Transformer和非监督预学习相结合来处理语言任务的方法,并称,他们通过这种方法获得了“顶尖的”结果。
OpenAI表示,希望这些结果能够推动进一步的研究,将这种方法应用到更大、更多样的数据集中。
量子位将博客文章主要内容整理如下:
我们的系统运行分两个阶段:
首先,我们以一种非监督的方式,在一个非常大的数据规模下训练一个Transformer――使用语言模型作为训练信号;
然后,我们在一个小得多的数据集上对该模型进行调参,以帮助其解决特定的任务。
这种方法延续了我们之前的情绪神经元研究。此处,我们希望能对这种想法做进一步探索:我们是否而能够开发一个模型,在大规模数据下以非监督的方法对其进行训练,然后对其调参,使其能在多种不同任务上获得好的表现?
事实证明这种方法成效显著。只需要最小程度的调参,相同的核心模型就能被应用到差异极大的任务上。
我们的研究引入了半监督序列学习,这种方法展示了如何通过使用有监督调参后的非监督LSTM预训练来提高文本分类表现。它同时也延伸了ULMFiT,即对于一个数据集不可知的LSTM语言模型进行调参,来在一系列文本分类数据集上获得最佳表现的研究。
我们的研究还展示了如何在该方法中使用一个依托于Transformer的模型,使其在除文本分类数据集外更大范围的任务上获得成功,如常识推理、语义相似度和阅读理解。
它与ELMo类似,但具有更强的任务不可知性。
让我们感到尤其兴奋的结果,是这种方法在COPA, RACE和ROCStories三种数据集上的表现。这三种数据集为测试常识推理和阅读理解的表现而设计。
这证明了通过非监督技术来开发复杂语言理解能力的途径大有希望。
为什么是非监督学习?
监督式学习是近年来机器学习所获成功的核心组成部分。然而,它需要大规模的、仔细净化过的、昂贵的数据集才能有效发挥作用。
而正因为有潜力解决这些弊端,非监督学习才如此吸引人。因其避开了人工标注的瓶颈,非监督学习还能出色地配合当今计算力和原始数据可用性提升的趋势。对于非监督学习的研究非常活跃,但实际应用却很少。
有研究正试图通过利用非监督学习来增强那些包含大量无标注数据的系统,从而提升语言能力;通过非监督技术训练的语词表示,能够使用包含兆兆字节的大型数据集,结合监督式学习,来提升在一系列NLP任务上的表现。
直到最近,这些针对NLP的非监督技术使用了简单的模型和训练信号。Skip-Thought Vectors就是对这种方法潜力的一个早期展示。现在,研究者们正在使用一些新技术来进一步提升表现。这些方法包括使用预训练语句表示模型、语境化词向量以及通过自定义结构来融合非监督预训练和有监督调参的方法,比如我们自己的研究。
我们同时注意到,我们不需在某些特定任务上进行训练,就能使用底层语言模型执行这些任务。比如,在从多选题中选出正确答案任务上的表现,随着底层语言模型的改进而持续提升。
虽然,这种方法的表现同监督式学习相比仍然相差很远,其在一系列领域任务上的鲁棒性依旧令人鼓舞。使用随机生成的、不包含任何任务和常识信息的网络获得的表现并没有比随机使用这些启发式的方法更好。
我们还可以用存在于该模型中的语言功能性来执行情感分析。针对由正面和负面影评组成的Stanford Sentiment Treebank数据集,我们可以利用该语言模型,通过在语句后输入“很”,观察模型“正面”或“负面”的预测结果来判断一条影评的情感倾向。在完全没有针对任务对模型进行任何调整的情况下,这种方法能达到80%的准确性,与经典基准线持平。
我们的研究同样是对Transformer结构鲁棒性和功效的确认。
缺陷
这一项目有几个突出的问题值得注意:
计算需求:许多之前针对NLP任务的方法,都是从头开始在一块单独的GPU上对相对较小的模型进行训练。而我们的方法需要高成本的预训练步骤――在8快GPU上训练一个月。所幸该步骤只需进行一次,我们也会放出我们的模型,以便其他人避免这种情况。
这也是个大型模型(相较于之前的研究),需要更多的计算力和内存――我们使用了一个37层的Transformer结构,训练的序列长度打到了512个token。绝大部分实验都是在4块和8块GPU的系统上进行。该模型在新任务上的调参完成得非常快,在一定程度上缓和了额外的资源需求。
通过文本学习世界的局限性和偏见:网络上可用的书籍和文本并不包含关于世界的完整的、甚至准确的信息。最近有研究证明,特定种类的信息很难只通过文本来学习,另外有研究展示了模型会从数据分布中学习、挖掘出偏见。
依然脆弱的可推广性:尽管我们的方法提升了在多种不同类别任务上的表现,当今的深度学习NLP模型依然展现了令人惊讶的、违反直觉的行为,特别是当它们以系统的、对抗性的或去分布的方式被评估时。
尽管观测到了某些进展,我们的方法并没能避免这些问题。相较于之前的纯神经途径,我们的方法展现了鲁棒性上的提升。在Glockner et al. (2018)中引入的数据集上,我们的模型拿到了83.75%的成绩,与KIM的表现类似,而后者通过WordNet吸收进了外部知识。
未来
提升规模:我们观察到,该语言模型在表现上的提升与下游任务的提升密切相关。我们目前所用的是商品级的硬件(一台8CPU机器)和一个只有几千本书的训练数据集)大约5GB文本)。这说明在更强的计算力和更大的数据量下,这种方法还有巨大的提升空间。
改进调参:我们的方法目前还十分简单。更精细的调试和技术的转移(如ULMFiT中的技术)可能带来实质性的提升。
对于生成式与训练的更好理解:尽管我们在这里讨论了一些我们偏爱的观点,更加有针对性的实验和研究将会帮助区分那些竞争性的解释。比如,我们观察到的优点中,有多少是来自处理更大范围文本能力的提升?又有多少是来自关于世界知识的提升?
传送门
博客原文:https://blog.openai.com/language-unsupervised/
论文:
Improving Language Understanding by Generative Pre-Training
作者:Alec Radford、Karthik Narasimhan、Tim Salimans、Ilya Sutskever
地址:https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf
Code:https://github.com/openai/finetune-transformer-lm
机械手臂ai识别功能 ai机械臂控制系统
机械手臂爱普生,机械手臂挨刀张松,机械手臂app,机械手臂APPUI设计在婴儿时期,我们学的第一件事就是用手抓东西,但是这个动作并不简单,并且会随着人类的成长而变得更加复杂多样,这一复杂性让机器很难学习这一人类行为。Elon Musk和Sam Altman等人联合建立的人工智能非营利组织OpenAI的研究人员创建了一个系统,这个系统不仅能够像人类一样抓握和控制物体,还能够自己领悟出类似人类的行为。
很多的机器人和机械手臂已经能够熟练地完成特定的抓握或者其它动作――工厂里的机器人能够比人类更加灵活地使用螺钉枪。但是能够让机器人很好地完成这一任务的软件似乎是手写的,而且是特别针对这个应用程序所编写。例如,你并不能给机器人一支笔,然后让它去写东西。即使在同一生产线上,像焊接等任务就需要一个全新的系统。
但是对于人类来说,拿起一个苹果和拿起一个杯子的动作大同小异。其中会有些不同,但是我们的大脑会自动地填补这一空缺,我们也能够随机应变,想出一个新的抓取动作,安全地握住一个不熟悉的物体等等。在这一领域,机器人远远地落后于人类模型。甚至,你不能训练机器人去做人类能够做的事――你必须向它提供上百万种案例,以便充分地显示人类会对上千种物体做出哪些动作。
OpenAI的研究人员认为,解决方案就是不使用人类数据。相反,他们让计算机在模拟中一次次地尝试,一次次地失败,慢慢地学习如何移动手指,以便在机器人手中握住的物体能够按照想要的方式移动。
他们将这个系统称为Dactyl,研究人员只为该系统提供了手指的位置和手中物体的三个摄像头视角――但是要记住,当这个系统经过训练之后,会对所有的数据进行模拟,而且这一模拟是在虚拟的环境下进行。因此,计算机并不需要实时工作――它能够在数秒之内尝试上千种不同抓取物体的方式、分析结果、实时更新数据,以便进行下一次试验。(这个手臂是Shadow Dexterous Hand,要比大多数的机械手臂复杂得多。)
系统需要学习的东西,除了不同的物体和手势,还有一些随机的参数,如指尖的摩擦力大小,模拟场景的颜色和灯光等。你不能对现实生活的每一个方面都进行模拟,但是你要确保这个系统并不是只能在蓝色的房间里工作,或者只能移动有特殊标记的方块。
为了解决这一问题,研究人员使用了6144颗CPU和8颗GPU,“在50小时之内就能完成100年的训练经验。”然后他们将这个系统首次应用到现实世界中,这个系统也展示了和人类类似的行为。
我们一般不会察觉,在我们用手完成一些动作时,如转动苹果看苹果有没有擦伤,或者给朋友递一大杯咖啡,都使用了手上的很多细小部位来使物体保持稳定或者移动物体。Dactyl自己也重新创造了其它的动作,例如用大拇指和手指头来托起物体,然后使用剩余的手指来拨动物体朝向目标方向。
这个系统的强大之处不仅仅是能够自然地完成动作,并且在经历过试验和失败之后也能独立的完成,但是这个系统还没有涉及到物体具体的形状或者种类。就和人类一样,Dactyl能够理所当然地抓住和控制放置在它手上的任何东西。
我们将这种灵活性称之为泛化,对于必须和现实世界交互的机器人来说,这是很重要的。为现实世界中每一个物体和场景都编写独立的行为代码是不现实的,但是机器人能够依靠一套其自身的核心理解方式来适应和弥补这一空缺。
描写试验结果(包括OpenAI所完成其它任务)的论文现在可以免费使用,以及研究人员用于创建和测试Dactyl的工具也可以免费使用。
原文作者:Devin Coldewey
编译:信息化观察网
OpenAI的新模型,要替代5万名转录员,会议纪要再也不会出错了!
openup模型9月23号,OpenAI发布了一个叫做Whisper的AI模型,向全球开发者开源。Whisper的英文意思就是说悄悄话,顾名思义就是一个语言AI模型。
我们之前跟大家介绍过OpenAI,就是由马斯克等人联合发起,后来被微软以10亿美元收购的人工智能企业。在整个人工智能产业里,OpenAI做的事情更偏基础架构一些,也更具有引领者的气质。它最具有代表性的是两个底层技术,每次推出都引发了商业化的浪潮:
一个是自然语言生成工具GPT-3,开发者们要么把GPT-3集成到自己的业务里,比如通信聊天软件MessageBird;要么创业公司直接拿来创业了,比如第三方AI对话服务团队Sapling.ai;
另一个是AI绘画工具DALL-E,开创了文字转绘画艺术创作的热潮。抓住这一波风口的初创公司StabilityAI正在冲击10亿美元的估值。
关于每一种AI工具的应用价值,有一个简单好用的判断标准,那就是看它是不是有潜力替代某种人类职业。比如GPT-3具有了处理人类自然语言的能力,替代对象就是人工客服;DALL-E具有快速生成艺术绘画的能力,替代对象是插画师。
OpenAI这一次推出的Whisper,替代职业就是转录员。根据职业咨询网站Zippia的统计,漂亮国有5.1万名转录员,88.7%的转录员是女性。虽然职业地位不像公司白领那么高,但人工成本也不低,一般的转录员时薪是15美元,而高级转录员的时薪达到了25美元。
由于每个行业都有专业词汇需要掌握,转录员还会有各自擅长的细分领域。比如,医学转录员的平均年薪为3.6万美元,法律行业转录员平均在2.6万美元。从事这个行业,不光要理解行业词汇,打字速度也要远远快于常人,需要很多的耐心和认真的训练才能成为合格的转录员。
如果有一种AI工具,同时拥有各行各业的专业知识,还能准确稳定地把采访、博客、对话等语音转录出来,我们就不需要专门培养那么多细分行业领域的转录员了。
从任务本身来看,音频转文字可没有你想象得那么简单。如果说GPT-3的训练数据是海量的文字,那么Whisper要学习的是各种各样的口音甚至方言,每个人说话的节奏、语调也不一样,由于很多转录场景是电话、通讯APP等非正式场合,背景会有噪音,也会偶尔有中断。
这就要求Whisper在GPT-3理解上下文的基础上,要有更强的抗干扰能力、更接近人类的声音识别能力。不过目前来看,OpenAI把这个工具面向所有开发者推出,已经具备商业化条件了。要知道,GPT-3在公布API接口后,9个月时间就出现300款应用。这一次的Whisper会不会再现当初的盛况,我们可以拭目以待了。
在人工智能领域,AI音频研究是文字、图片之后下一个备受关注的前沿,商业化前景很大。字节跳动的AI实验室有一个专门研究AI语音的团队叫火山语音,在今年9月公开了一系列AI音频技术的突破。
比如现在的有声小说APP需要配上音乐,火山语音的AI系统自己就可以理解小说这段情节的情绪,比如是喜悦还是悲伤,然后配上相应情感氛围的音乐。之前普遍的做法是让配乐师先把小说听一遍,然后在后期逐个配乐,和插画师一样,人力成本很高。
如今,越来越多的AI工具走出实验室,提供给开发者为产业和企业服务了。人工智能未来会朝着什么方向去演化呢?
我认为,现在的人工智能发展,就好比移动互联网刚刚起步的时候,整个行业都处在混沌之中,因为没有人能够讲得清楚未来是什么。
2000年我国移动推出了移动梦网,就像一个大超市,上面涌现了一批增值业务提供商。经历了一轮后,大批服务提供商陆续退出了市场。2008年的3G网络时代,百度、腾讯、360都推出了手机浏览器来抢占移动互联网入口,但那时候依然还没有大规模的、成熟的商业应用。
2012年以后,触摸屏的智能手机开始大规模替代按键手机,硬件基础开始定型,苹果和安卓瓜分了移动APP平台,越来越丰富的音乐、阅读、打车、游戏等APP就开始成长起来了,上面提供的移动支付、网约车、外卖配送等等服务,都是为我们生活真正带来改变的应用。
现在AI工具好比移动互联网发展的初期,很多都是有一定门槛的开发工具,而且面向的领域相对单一,比如AI转录文字、AI音频等等。类似的,移动互联网最早就只有短信、彩信、手机上网WAP)和小游戏,谁能预见到后来的精彩呢。
未来会有越来越多的应用开始使用人工智能,甚至催生新的商业模式,应用也会越来越丰富,当应用数量足够大的时候就容易平台化,或许会催生出不亚于当年移动互联网的繁荣。我相信,这一波科技的坦克正在逐渐完善,未来就看谁能打出闪电战来。就像基于移动的应用企业字节跳动可以逐渐超越互联网巨头一样,未来的基于人工智能的应用企业也一定会超越字节这样的今天的巨头,成就下一个时代的辉煌。返回搜狐,查看更多
责任编辑: