淘优惠

淘优惠

OpenAI 研究员谈半监督学习:数据不足情况下的学习方法

热门文章 0

淘宝搜:【天降红包222】领超级红包,京东搜:【天降红包222】
淘宝互助,淘宝双11微信互助群关注公众号 【淘姐妹】

openai和chatGPT什么关系,openai在您所在的国家不可用,openai官网,openai 马斯克

随着为机器提供更多高质量的标签,监督学习模型的性能也会提高。然而,获取大量带标注样本的代价十分高昂。在机器学习中,有一些方法用于解决标签稀少的场景,半监督学习是其中一种解决方案,它可以利用一小部分有标签数据和大量的无标签数据进行学习。

对于只有有限标签数据的有监督任务,通常有四种候选方案:

  • 预训练+微调 (Pre-Training+Fine-Tuning):在大规模无监督数据上训练一个与任务无关 (Task-Agnostic)的模型,例如在文本数据上训练的 Pre-Training LMs,以及通过自监督学习在无标签图片上预训练的视觉模型等。然后,在下游任务中通过少量的有标签样本集合对模型进行微调。

  • 半监督学习 (Semi-Supervised Learning):在有标签数据和无标签样本上共同学习。很多视觉相关的任务研究的就是这种方法。

  • 主动学习 (Active Learning):为样本打标签的成本很昂贵,但是在给定成本预算的前提下,我们仍然希望可以获得的更多带标签数据。主动学习旨在选择最有价值的无标签样本进行收集,帮助我们在有限的预算下采取明智的行动。

  • 预训练 + 数据集自生成 (Pre-Training + Dataset Auto-Generation):给定一个良好的预训练模型,我们可以利用它生成更多的有标签样本。受少样本学习 (Few-Shot Learning)的启发,这种方式在语言领域很流行。

本文是OpenAI研究员Lilian Weng(翁荔)的最新博客文章,

智源社区已经获得Lilian Weng个人博客授权。博客地址:https://lilianweng.github.io/lil-log/。

本篇为“数据不足情况下的学习”(Learning With Not Enough Data)系列文章的第一部分,主题是半监督学习 (Semi-Supervised Learning)。

作者|Lilian Weng

翻译|沈林杉

审校|戴一鸣

以下是整篇文章的目录

  • 什么是半监督学习?

  • 符号说明

  • 假设

  • 一致性正则化

    • Π-model

    • Temporal Ensembling

    • Mean Teachers

    • Noisy Samples As Learning Targets

  • 伪标签方法

    • 标签传播(Label Propagation)

    • 自训练 (Self-Training)

  • 伪标签+一致性正则化

    • MixMatch

    • DivideMix

    • FixMatch

  • 结合强大的预训练

  • 参考文献

作者介绍:

Lilian Weng现为OpenAI应用人工智能研究负责人,主要从事机器学习、深度学习和网络科学研究 。她本科毕业于香港大学,硕士就读于北京大学信息系统与计算机科学系,之后前往印度安纳大学布鲁顿分校攻读博士。

1

什么是半监督学习?

半监督学习通过使用有标签和无标签数据来共同训练模型。

当前,大多数有关半监督学习的研究主要关注的是视觉任务。而预训练+微调是语言任务中更常见的范式。

本文介绍的所有方法都有一个由两部分组成的损失: 。给出所有标注的样本,监督损失 很容易得到。我们将重点介绍如何设计无监督损失 。加权项 一般选择斜坡函数,使得 的重要性随着时间而增加,其中 是训练步骤。

免责声明:本文不打算讨论半监督方法,而将重点放在模型架构修改上。 这篇综述(https://arxiv.org/abs/2006.05278)讨论了如何在半监督学习中使用生成模型和基于图的方法。

2

符号说明

3

半监督学习中的假设

当前的半监督学习研究中讨论了几个假设,以支持半监督学习方法中的某些设计决策。

  • H1:平滑假设――如果两个数据样本在特征空间中的高密度区域非常接近,则它们的标签应相同或相似。

  • H2:聚类假设――特征空间既有密集区域,也有稀疏区域。位于密集区域的数据点会自然地会形成簇,而同一簇中的样本应具有相同的标签。这是聚类假设的一个小扩展。

  • H3:低密度分离假设――类之间的决策边界往往位于稀疏、低密度区域,否则决策边界会将高密度簇分为两类,从而形成两个簇,使得平滑假设和聚类假设失效。

  • H4:流形假设――高维数据实际上是由一个低维流形映射到高维空间上的。即使真实世界中的数据是在高维度上观察到的,例如真实世界中的物体/场景的图片,我们也可以捕获它们的内在低维流形结构。在这里就可以发现数据的潜在规律,相似的数据点将被聚到一起 (真实世界中的物体/场景的图像不是在所有像素组合中均匀采样的)。这使得我们能够学习一个更有效地表示,来度量无标签数据之间的相似性。这也是表示学习的基础。

    (可参考:what-is-the-manifold-assumption-in-semi-supervised-learning)

4

一致性正则化

一致性正则化 (Consistency Regularization),又称一致性训练 (Consistency Training),假设在给定相同输入的情况下,神经网络内的随机性 (如Dropout)或数据增强变换不会改变模型的预测结果。本节中提到的每个方法都有一个对应的一致性正则化损失,记为 。

一致性正则的思想已经被应用于一些自监督学习方法中,如SimCLR、BYOL、SimCSE等。自监督学习的核心思想是同一样本的不同增强版本应产生相同的表示。不论是语言建模中的跨视角训练 (Cross-View Training),还是自监督学习中的多视角学习 (Multi-View Learning),它们的出发点都是相同的。

1. Π-Model

图注:Π-Model框架。当同一数据点经过不同的随机变换 (如Dropout、随机最大池化等),将得到两个版本 (Version)作为网络的输入,我们期望它们对应的输出是一致的。(图片来源: Laine & Aila (2017))

Sajjadi et al. (2016)提出了一种无监督损失,它通过对同一数据点进行两次随机变换 (例如Dropout、Random Max-Pooling),然后通过最小化两个变换后的数据点经过网络后的差异来进行学习。

由于标签没有被显式地使用,因此这个损失函数也可以用于无标签的数据集。Laine & Aila (2017)将其命名为Π-model。

2. Temporal Ensembling

图注 :Temporal Ensembling框架,每个样本的EMA标签预测是模型的学习目标。(图片来源:Laine & Aila (2017))

由于Π-Model需要网络对每个样本运行两次,因此计算成本也会增加一倍。为了降低成本,Temporal Ensembling (Laine & Aila 2017)维护每轮训练样本对应模型实时预测值的指数移动平均值 (EMA) ,并将其作为学习目标,每轮迭代只需推理和更新一次。因为集成输出 初始化为 ,所以它被归一化 ,以纠正初始的偏差。Adam Optimizer出于同样的原因也有这样的偏差修正项。

3. Mean Teachers

图注:Mean Teacher框架。(图片来源:Tarvaninen & Valpola, 2017)

Temporal Ensembling将每个训练样本标签预测值的EMA作为学习目标。然而,这种标签预测只在每轮迭代中发生变化,训练数据集较大时该方法就会显得笨拙。Mean Teacher (Tarvaninen & Valpola, 2017))通过跟踪模型权重而不是模型输出的的移动平均值来解决目标更新慢的问题。我们称带有权重 的原始模型为学生模型(Student Model),而通过连续的学生模型得到的带有移动平均权重 heta的模型称为平均教师 (Mean Teacher)模型,其中 。

这里的一致性正则化损失是指学生模型和教师模型的预测之间的距离,并且学生模型和教师模型之间的差距应该最小化。平均教师模型应该比学生模型提供更准确的预测,这也实验中得到了证实,如下图所示。

图注 :Mean Teacher 和Π-Model在SVHN数据集上的分类误差。其中Mean Teacher (黄线)的性能比Π-Model (蓝线)更优异。(图片来源:Tarvaninen & Valpola, 2017)

根据消融实验,可以得到以下几个结论:

  • 对输入进行增强处理 (例如,对于输入图片进行随机翻转、高斯噪声操作)以及对学生模型进行Dropout对于良好的性能是必要的。而Dropout对于教师模型是非必要的。

  • 性能对EMA衰减超参数 较敏感。在渐变阶段使用较小的 ,在后期学生模型性能提升放缓时,再使用较大的 ,是一个好的策略。

  • 选择MSE作为一致性代价函数,比其他代价函数如KL散度表现更好。

4. 带噪样本作为学习目标

最近的一些一致性训练方法通过最小化原始无标签样本和对应增强版本之间的预测差异来进行学习。这个和Π-Model很相似,但是这里的一致性正则损失只应用于无标签数据。

图注:带噪样本的一致性训练

对抗训练 (Goodfellow et al. 2014) 通过在输入中加入对抗性噪声,并训练模型,使其对于这种对抗攻击具有鲁棒性。这种设置会在在有监督学习中起作用:

其中 是真实分布,近似于真实标签的独热编码, 是模型的预测值, 是一个距离函数,衡量两个分布之间的散度。

Virtual Adversarial Training(VAT; Miyato et al. 2018)将上述思想拓展至半监督学习。因为 是未知的,VAT将其替换为原始输入经过当前模型得到的预测输出,其中模型权重为 。由于 是模型权重的固定副本,所以在 上并没有梯度更新。

VAT损失适用于无标签和有标签样本上。它是当前模型在每个数据点的预测流形的负平滑度度量。通过优化这种损失,可以促使流形更加平滑。

Interpolation Consistency Training(ICT; Verma et al. 2019)通过增加更多数据点的插值来增强数据集,同时希望模型的预测值与对应标签的插值能够保持一致。MixUp (Zheng et al. 2018) 通过简单的加权将两张图片混合,并将其与标签平滑 (Label Smoothing)相结合。遵循Mixup的思想,ICT期望模型在经过Mixup处理的样本上产生的标签,可以和相应输入的预测插值相匹配。

其中 是 的移动平均,是一个Mean Teacher。

图注:插值一致性训练概述。利用Mixup可以生成更多的插值样本,并以插值标签作为学习目标。(图片来源:Verma et al. 2019)

因为两个随机选择的无标签样本属于不同类别的概率很高(例如,ImageNet中包含1000个类别),所以在两个随机无标签样本之间使用MixUp进行插值的操作,很可能发生在决策边界附近。根据低密度分离假设,决策边界往往位于低密度区域中。

其中 是 的移动平均。

和VAT类似,Unsupervised Data Augmentation(UDA; Xie et al. 2020) 通过预测无标签样本和它的增强版本的输出一致性来进行学习。UDA尤其关注在噪声质量对半监督学习一致性训练性能的影响。使用先进的数据增强方法来产生有意义和有效的噪声样本是至关重要的。好的数据增强应该产生有效的(即不改变标签)和多样化的噪声,并带有有针对性的归纳偏好 (Inductive Biases)。

对于图片数据,UDA采用RandAugment (Cubuk et al. 2019),它会随机地使用PIL库中的增广方法,无需进行学习和优化,因此比AutoAugment的成本低得多。

图注:不同的半监督学习方法在CIFAR-10数据集上进行分类任务的实验结果。Wide-Resnet-28-2和Pyramidnet+Shakedrop在完全监督的设置下,在没有进行Randaugment处理的50,000个样本上进行训练,错误率分别为5.4%和2.7%。(图片来源:Xie et al. 2020)

针对语言领域,UDA结合了反向翻译(Back-Translation)和基于TF-IDF的词替换。反向翻译保留了高层次含义,但可能不能保留某具体的些单词,而基于TF-IDF的词替换则会删除TF-IDF分数较低的低信息量的单词。在语言任务的实验中,研究人员发现UDA对于迁移学习和表征学习是互补的;例如,在域内无标签数据上使用BERT微调(即下图中的 )可以进一步提高性能。

图注:对具有不同初始化配置的UDA在各种文本分类任务上的结果比较。(图片来源:Xie et al. 2020)

在计算 时,研究人员还发现以下几种训练技巧有助于提升模型结果:

  • 低置信度掩蔽 (Low Confidence Masking):如果样本的预测置信度低于阈值 ,则将其掩蔽。

  • 锐化预测分布(Sharpening Prediction Distribution):在Softmax中使用低温的 来对预测概率分布进行锐化。

  • 域内数据过滤(In-Domain Data Filtration):为了从大的域外数据集中提取更多的域内数据,研究人员训练了一个分类器来预测域内标签,然后保留具有高置信度预测的样本作为域内候选样本。

au ] \cdot D[p^ ext{(sharp)}_{\hat{ heta}}(y \mid \mathbf{x}; T), p_ heta(y \mid \bar{\mathbf{x}})] \\ & ext{where } p_{\hat{ heta}}^ ext{(sharp)}(y \mid \mathbf{x}; T)=\frac{\exp(z^{(y)} / T)}{ \sum_{y'} \exp(z^{(y')} / T) } \end{aligned} " data-formula-type="block-equation">

其中 是模型权重固定的副本,与VAT中相同,因此没有梯度更新, 是增强的数据点。 是预测值的置信度阈值, 是分布锐化温度。

<

python 百度ai 文字识别 python ai智能视觉识别word文字

python什么东西,python代码大全,python入门教程(非常详细),python编程入门自学
嘶吼RoarTalk
・北京

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片
ChatGPT

ChatGPT是OpenAI 2022年11月推出的交互式自然语言对话模型。OpenAI使用RLHF(从人类反馈中进行强化学习)来训练ChatGPT,与InstructGPT使用的方法相同,但数据收集设置时有明显的差别。在训练初始模型时使用有监督调整(参):人类AI训练器提供的会话。训练员有访问模型建议的权限以帮助训练器更好地完成响应。然后将新生成的会话数据集与InstructGPT数据集混合,形成对话格式。

ChatGPT发布后在业界引发了震动,随后给各方广泛试用,其中就包括学生。有学生试用ChatGPT来写论文、作业和编写程序,并且老师很难分辨论文、作业和编写的程序是否是由学生自己完成的。此外,还出现了很多署名ChatGPT的待发表论文。

为应对这一问题,全球学校纷纷采取措施,比如禁用该平台。根据BusinessInsider的数据,ChatGPT目前已被纽约、西雅图、洛杉矶等地的初高中禁用,法国和印度的大学计算机也禁用了该平台。

打开网易新闻 查看精彩图片
ChatGPT检测工具

1月31日,OpenAI 宣布推出人工智能文本分类器,旨在检测输入内容是否是由ChatGPT这样的人工智能工具生成的。

OpenAI称其分类器并不完全可靠。在英文文本测试时,分类器正确识别了26%人工智能生成的文本,约9%人类写出的内容错误标记为人工智能生成的。随着输入文本长度的增加,分类器的性能有所提高。与之前其他分类器相比,该分类器的准确率高于其他检测分类器。

分类器试用地址:http://platform.openai.com/ai-text-classifier

OpenAI称由于结果并不完全可靠,因此不建议将该工具用作决策,而是作为其他检测工具和方法的补充。

ChatGPT试用地址:https://chat.openai.com/

https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text

参考及来源:https://www.bleepingcomputer.com/news/technology/openai-releases-tool-to-detect-ai-written-text/

特别声明:本文为网易自媒体平台“网易号”作者上传并发布,仅代表该作者观点。网易仅提供信息发布平台。


openai语言研究新方向 ai预读算法

opening language,语言学open class

对于CNET Money撰写的一些文章,我得到了 "不清楚 "的结果,而其他文章则得到了 "不太可能 "的分类。该媒体称,这些文章 "由人工智能引擎协助,并由我们的编辑人员进行审查、事实核查和编辑",因此其中可能有一些人为的调整(尤其是CNET已经对其中一半以上的文章进行了修正)。虽然CNET的所有者没有说它使用哪种具体的系统来处理这些文章,但有报告说它使用了一种叫做Wordsmith的工具来处理一些内容。不过,OpenAI说它的工具不只是用于GPT,它应该能检测 "由各种供应商的AI编写的文本"。

我并不是说OpenAI的分类器完全不起作用。我通过它检测了一些人们发布的ChatGPT回复的例子,它将其中大部分标记为 "可能 "或 "非常可能 "由AI生成。OpenAI还表示,在其测试中,该工具有26%的时间将人工智能编写的文本标记为 "可能是人工智能编写的",有9%的时间给出了错误的人工智能检测结果,超过了其之前用于嗅出人工智能检测文本的工具。

OpenAI并不是第一个提出检测ChatGPT生成的文本的工具;几乎在AI聊天机器人走红之后,像GPTZero这样的网站也立即出现了,它是由一个名叫Edward Tian的学生制作的,目的是 "检测人工智能的剽窃行为"。

OpenAI在这项检测技术上真正关注的一个地方是教育。它的新闻稿说,"识别AI编写的文本一直是教育工作者的一个重要讨论点",因为不同的学校对ChatGPT的反应是禁止或接受它。该公司表示,它正在 "与美国的教育工作者接触",以弄清他们在课堂上从ChatGPT中看到了什么,并正在向任何参与教育的人征求反馈意见。

欢迎关注上海白日梦科技,留下您的评论和点赞吧~

发布于:上海市