预训练模型：GPT

69 阅读 0 评论 46 点赞

我是靠谱客的博主活泼野狼，这篇文章主要介绍预训练模型：GPT，现在分享给大家，希望可以做个参考。

GPT 是 OpenAI 在论文《Improving Language Understanding by Generative Pre-Training》中提出的生成式预训练语言模型。该模型的核心思想是通过二段式的训练，以通用语言模型加微调训练的模型完成各项下游NLP任务，包括文本生成、二分类、蕴含、相似度、多分类等。

1. 预训练任务

GPT模型采用标准的语言模型训练方法，即给定上文令模型预测下一单词，模型的目标函数为：

$L_i = sum_{t in T} logP(u_t|u_{t-k}, cdots, u_{t-1};theta)$ 式中， $k$ 是上下文窗口大小。

2. 模型结构

GPT模型整体继承了 Transform 的解码器（Decoder）结构，除删除了 Decoder 模块中的 Encoder-Decoder Attention 层，并将输入层中的位置编码模块从三角函数编码改为用可学习的模型参数编码外，在模型结构上未做任何改动，仅扩充了原有网络的规模：

将Decoder模块的层数从6层扩展到12层；
将Attention层输出向量的维度从512维扩大到768维；
将Attention层多头注意力的头数从8增加到12；
将Feed Forward层的隐藏层神经元数量从2048增加到3072。

此外还优化了学习率预热算法，使用更大的BPE码表（融合次数为40000），将激活函数从 ReLU 改变为对梯度更新更友好的 GeLU（高斯误差线性单元）。

3. 下游任务

4. 微调训练

最后

以上就是活泼野狼最近收集整理的关于预训练模型：GPT的全部内容，更多相关预训练模型内容请搜索靠谱客的其他文章。

本图文内容来源于网友提供，作为学习参考使用，或来自网络收集整理，版权属于原作者所有。

点赞(46)

本文分类：# 深度学习
浏览次数：69 次浏览
发布日期：2024-01-01 11:30:30
本文链接：https://www.kaopuke.com/article/k-p-k_13_u_23_ocf1_13_j_6_4.html

相关文章

预训练模型--GPT

XLNet：广义自回归预训练语言模型 2019 NIPS导读摘要1、引言2、XLNet模型3、实验4、结论5、附录：基于双向流自注意力的Target-Aware Representation

XLNet：广义自回归预训练语言模型 2019 NIPS导读摘要1、引言2、XLNet模型3、实验4、结论5、附录：基于双向流自注意力的Target-Aware Representation

XLNet模型四、总结

Kalman Filter的推导与应用（二）（二）Kalman Filter公式推导

Kalman Filter的推导与应用（二）（二）Kalman Filter公式推导

预训练模型：GPT

中秋佳节，用 AI 为家人写一首诗（文末送中秋福利）

中秋佳节，用 AI 为家人写一首诗（文末送中秋福利）

总结GPT1和GPT2

汽车数字钥匙搭载率突破20%，UWB赛道正在跑步进入「元年」

汽车数字钥匙搭载率突破20%，UWB赛道正在跑步进入「元年」

评论列表共有 0 条评论

发表评论取消回复

立即
投稿返回
顶部