标签: GPT

GPT：

Generative Pre-Trained Transformer即生成式预训练转换器，其架构基于原始的 transformer 的解码器

GPT主要训练阶段：

无监督预训练PT（Unsupervised Pre-training）：

定义：在未标记的文本上预训练 GPT，从而利用丰富的文本语料库。该阶段又叫做生成式预训练。任务：训练模型以了解语言的结构并捕获文本数据集中存在的统计模式。它不是针对特定的语言任务，而是提高模型对语言本身的理解。具体：无监督预训练将一系列标记提供给模型（Transformer 解码器的变体）以预测下一个标记的概率。它在下图中显示为 “Text Prediction” （其中“Task Classifier” 用于监督微调SFT阶段）

2024年11月12日...大约 3 分钟