GPT:
- Generative Pre-Trained Transformer即生成式预训练转换器,其架构基于原始的 transformer 的解码器
GPT主要训练阶段:
无监督预训练PT(Unsupervised Pre-training):
定义:在未标记的文本上预训练 GPT,从而利用丰富的文本语料库。该阶段又叫做生成式预训练。
任务:训练模型以了解语言的结构并捕获文本数据集中存在的统计模式。它不是针对特定的语言任务,而是提高模型对语言本身的理解。
具体:无监督预训练将一系列标记提供给模型(Transformer 解码器的变体)以预测下一个标记的概率。它在下图中显示为 “Text Prediction” (其中“Task Classifier” 用于监督微调SFT阶段)
2024年11月12日...大约 3 分钟