微软年内发布新版WP7系统：支持简体中文

预训练模型是什么意思预训练模型

预训练模型是什么,预训练模型是干嘛的,预训练模型存的是什么,预训练模型优点

点击上方，选择星标或置顶，每天给你送干货！

阅读大概需要25分钟

跟随小博主，每天进步一丢丢

作者: 林哲乐

方向: 知识图谱、问答

知乎专栏:?

https://zhuanlan.zhihu.com/p/151741265

CSDN博客：

https://blog.csdn.net/weixin_37995835/article/details/106994820

本文的主要目的是理清时间线，关注预训练的发展过程，进行模型间的联系和对比，具体原理和细节请参考原论文和代码，不再一一赘述。

『预训练模型的时间线』

ELMO ?2018.03 ? ?华盛顿大学? ?
GPT ? ? 2018.06 ? ?OpenAI
BERT? ?2018.10 ? ?Google?
XLNet? 2019.6 ? ?CMU+google
ERNIE ? ?2019.4 ? ? 百度
BERT-wwm ?2019.6? ?哈工大+讯飞
RoBERTa ? 2019.7.26? ?Facebook? ?
ERNIE2.0 ? ?2019.7.29 ? ? 百度? ? ? ?
BERT-wwm-ext ?2019.7.30? ?哈工大 +讯飞?
ALBERT? ?2019.10? ?Google? ?

（文末附相关论文及模型代码）

『预训练语言模型分类?』

单向特征、自回归模型（单向模型）：
ELMO/ULMFiT/SiATL/GPT1.0/GPT2.0
双向特征、自编码模型（BERT系列模型）：
BERT/ERNIE/SpanBERT/RoBERTa
双向特征、自回归模型“
XLNet

『各模型之间的联系?』

传统word2vec无法解决一词多义，语义信息不够丰富，诞生了ELMO
ELMO以lstm堆积，串行且提取特征能力不够，诞生了GPT
GPT 虽然用transformer堆积，但是是单向的，诞生了BERT
BERT虽然双向，但是mask不适用于自编码模型，诞生了XLNET
BERT中mask代替单个字符而非实体或短语，没有考虑词法结构/语法结构，诞生了ERNIE
为了mask掉中文的词而非字，让BERT更好的应用在中文任务，诞生了BERT-wwm
Bert训练用更多的数据、训练步数、更大的批次，mask机制变为动态的，诞生了RoBERTa
ERNIE的基础上，用大量数据和先验知识，进行多任务的持续学习，诞生了ERNIE2.0
BERT-wwm增加了训练数据集、训练步数，诞生了BERT-wwm-ext
BERT的其他改进模型基本考增加参数和训练数据，考虑轻量化之后，诞生了ALBERT

“Embedding from Language Models"

NAACL18 Best Paper?

特点：传统的词向量（如word2vec）是静态的/上下文无关的，而ELMO解决了一词多义；ELMO采用双层双向LSTM
缺点：lstm是串行，训练时间长；相比于transformer，特征提取能力不够（ELMO采用向量拼接）
使用分为两阶段：预训练+应用于下游任务，本质就是根据当前上下文对Word Embedding进行动态调整的过程：

1. 用语言模型进行预训练

左边的前向双层LSTM是正方向编码器，顺序输入待预测单词w的上文；右边则是反方向编码器，逆序输入w的下文

训练好之后，输入一个新句子s，每个单词都得到三个Embedding：①单词的Word Embedding ? ②第一层关于单词位置的Embedding ? ②第二层带有语义信息的Embedding（上述的三个Embedding ? 、LSTM网络结果均为训练结果）

2. 做下游任务时，从预训练网络中提取对应单词的网络各层的Word Embedding作为新特征补充到下游任务中。?如QA任务：输入Q/A句子，对三个Embedding分配权重，整合生成新的Embedding

“Generative Pre-Training”

优点：Transformer捕捉更长范围的信息，优于RNN；并行，快速
缺点：需要对输入数据的结构调整；单向

GPT模型图

特点：

依然两段式：单向语言模型预训练（无监督）+fine tuning应用到下游任务（有监督）
自回归模型
transformer的decoder里面有三个子模块，GPT只用了第一个和第三个子模块，如下图：

与ELMO的不同：

GPT只用了transformer的decoder模块提取特征，而不是Bi-LSTM；堆叠12个
单向（根据上文预测单词，利用mask屏蔽下文）

? GPT中的mask如下图所示，mask之后要进行softmax：

mask操作

softmax操作

GPT依然分为两阶段

第一阶段（预训练）：

GPT的训练过程

第二阶段（应用于下游任务）：

向GPT的网络结构看齐，把任务的网络结构改造成和 GPT的网络结构是一样的。做法如下：

对于分类问题，不用怎么动，加上一个起始和终结符号即可；
对于句子关系判断问题，比如 Entailment，两个句子中间再加个分隔符即可；
对文本相似性判断问题，把两个句子顺序颠倒下做出两个输入即可，这是为了告诉模型句子顺序不重要；
对于多项选择问题，则多路输入，每一路把文章和答案选项拼接作为输入即可。从上图可看出，这种改造还是很方便的，不同任务只需要在输入部分施工即可。

效果：在 12 个任务里，9 个达到了最好的效果，有些任务性能提升非常明显。

ELMO、BERT、GPT-2模型大小对比图

? OpenAI在之后又提出了GPT-2模型，论文为《Language Models are Unsupervised Multitask Learners》，结构与GPT-1相似（依然采用transformer的encoder），但是采用多任务预训练+超大数据集+超大规模模型，所以有更好的性能表现，但是参数也增加了更多。

GPT的不同参数

如上图所示，第一组的规模和GPT一样，第二组和BERT一样，最后一个是GPT-2的参数量、层数和隐层大小。

由于单向地用上文预测下一个单词，GPT比BERT更适合做文本生成的任务。

“Bidirectional Encoder Representations from Transformers"

与GPT的区别：

双向
用的是transformer的encoder（GPT用的是decoder，ELMO用的是Bi-LSTM）
多任务学习方式训练：预测目标词和预测下一句

优点：效果好、普适性强、效果提升大
缺点：硬件资源的消耗巨大、训练时间长；预训练用了[MASK]标志，影响微调时模型表现

预训练分为以下三个步骤：

Embedding
三个Embedding 求和而得，分别是：
a.Token Embeddings：词向量，首单词是[CLS]标志，可用于分类任务
b.Segment Embeddings：用[SEP]标志将句子分为两段，因为预训练不光做LM还要做以两个句子为输入的分类任务
c.Position Embeddings：和之前文章中的Transformer不同，不是三角函数而是学习出来的
预测目标词Masked LM
随机挑选一个句子中15%的词，用上下文来预测。这15%中，80%用[mask]替换，10%随机取一个词替换，10%不变。用非监督学习的方法预测这些词。
预测下一句 Next Sentence Prediction
选择句子对A+B，其中50%的B是A的下一句，50%为语料库中随机选取

BERT的微调（fine tuning）参考参数：

Batch Size:16 or 32
Learning Rate: 5e-5, 3e-5, 2e-5
Epochs:2, 3, 4

BERT非常强大，在 11 项 NLP 任务中夺得 SOTA 结果，这11项任务可分为四大类：

句子对分类任务
单句子分类任务
问答任务
单句子标注任务

BERT中NLP四大下游任务微调

『tips』：可以尝试用BERT框架去做以上四种任务的简单实验，便于掌握BERT结构

『小总结』：

BERT、GPT、ELMo模型图

ELMO用Bi-LSTM，GPT用transformer的decoder，BERT用transformer的encoder
ELMO：双向，GPT，单向，BERT：双向
ELMO：解决一词多义，GPT，特征更丰富࿰

如何登录open Ai 用chatgpt和openai赚钱靠谱吗
如何登录oppo游戏账号,如何登录OPPO官网,如何登录OPPO新账号,如何登录OPPO的书城

最近几天，一个能敲代码、写情诗，甚至和你来一场哲学对谈的聊天机器人「ChatGPT」成为了大家的最智能“密友”，各种能问的不能问的，都朝它招呼。只要你调教到位，帮你完成一份工作周报也不在话下――看看这自我介绍水平。
也许你也想问它几个问题，但是总有一扇神秘的大门阻挡你打开这份“AI的智慧”。
不过，“人类的智慧”总能更胜一筹！之前，好说社区将风靡一时的字谜游戏「Wordle」搭入房间，让大家轻松点击就可以享受解谜打卡乐趣。
这次，我们也为同样有趣的「ChatGPT」开设了专用房间，不再需要寻找额外工具或看一整页的注册流程。你有问题？艾特就好！在这里，调戏AI聊天bot随问随到！
只需加入好说APP 「ChatGPT」房间，就可以直接艾特机器人「木木」为你答疑解惑。关注站内的@Chatbot精选，还可以看到更多说友们的奇思妙想，扩大脑洞。
比如说，先关心一下人类的安全问题，却发现是自己的格局小了。
#是一个会喝鸡汤的AI
趁着世界杯，关心一下国足的未来。
#是一个有梦想的AI
也可以说点冷笑话。
#是一个不懂谐音梗的AI
向AI学习如何尊重人类多样性。
#是一个保护公司温暖氛围的AI
最后，再PUA一下机器人，确保人类是永远安全的！
#是一个会照顾自己的AI
摸鱼让它帮你写份周报？还是问它先有鸡还是先有蛋的哲学迷思？
ChatGPT究竟还有多少奇妙回答？如果你也想试试你的脑洞有多大，就赶快加入下载好说APP，加入「ChatGPT」房间向「木木」提问吧！

（推广）

本文地址： https://www.xxs100.com//show-395117.html

版权声明：除非特别标注原创，其它均来自互联网，转载时请以链接形式注明文章出处。
- 简体注册OpenAI
分享到：

微软年内发布新版WP7系统：支持简体中文

预训练模型是什么意思 预训练模型

如何登录open Ai 用chatgpt和openai赚钱靠谱吗

预训练模型是什么意思预训练模型