2025年6月24日...小于 1 分钟
2025年6月24日...小于 1 分钟
ViT(Google 图像分类模型)
- ViT是一种没有 CNN(卷积神经网络)的图像分类模型(Vision Transformer),从图像分类任务中消除了 CNN
- ViT 将图像拆分为一系列图像补丁嵌入与位置编码混合,并将它们馈送到 Transformer 编码器中。ViT 有一个分类头 (MLP - 多层感知),它产生最终的预测
- 注意力可视化
- ViT 可以捕捉图像中的主要对象,忽略图像中的噪声
- 计算复杂度与输入图像大小呈二次方关系
2025年6月17日...大约 3 分钟
结构化Prompt:
LangGPT的写法:
# Role: <name> : 指定角色会让 GPT 聚焦在对应领域进行信息输出
## Profile author/version/description : Credit 和 迭代版本记录
## Goals: 一句话描述 Prompt 目标, 让 GPT Attention 聚焦起来
## Constrains: 描述限制条件, 其实是在帮 GPT 进行剪枝, 减少不必要分支的计算
## Skills: 描述技能项, 强化对应领域的信息权重
## Workflow: 重点中的重点, 你希望 Prompt 按什么方式来对话和输出
# Initialization: 冷启动时的对白, 也是一个强调需注意重点的机会
2025年6月17日...大约 11 分钟
白嫖huggingface的API
背景:
众所周知,hugging face中很多space资源都是可以直接使用的,那么如何将这些资源用在自己的项目中呢?
经过:
在使用Yank Note的 AI Extension时,发现文本转图片的端点是可以免费使用的,我忽然对此产生了兴趣 免费的配置:
2025年2月6日...大约 6 分钟
白嫖huggingface的API
背景:
众所周知,hugging face中很多space资源都是可以直接使用的,那么如何将这些资源用在自己的项目中呢?
经过:
在使用Yank Note的 AI Extension时,发现文本转图片的端点是可以免费使用的,我忽然对此产生了兴趣
免费的配置:
带着好奇,我直接打开对应的端点https://black-forest-labs-flux-1-schnell.hf.space:
端点地址:
2025年2月6日...大约 6 分钟
GPT:
- Generative Pre-Trained Transformer即生成式预训练转换器,其架构基于原始的 transformer 的解码器
GPT主要训练阶段:
无监督预训练PT(Unsupervised Pre-training):
定义:在未标记的文本上预训练 GPT,从而利用丰富的文本语料库。该阶段又叫做生成式预训练。
任务:训练模型以了解语言的结构并捕获文本数据集中存在的统计模式。它不是针对特定的语言任务,而是提高模型对语言本身的理解。
具体:无监督预训练将一系列标记提供给模型(Transformer 解码器的变体)以预测下一个标记的概率。它在下图中显示为 “Text Prediction” (其中“Task Classifier” 用于监督微调SFT阶段)
2024年11月12日...大约 3 分钟
概念
Transformer
- Transformer 是 Google 的团队在 2017 年提出的一种 NLP 经典模型,现在比较火热的 Bert 也是基于 Transformer。
- Transformer 模型使用了注意力机制(attention mechanisms),不采用 RNN 的顺序结构,使得模型可以并行化训练,而且能够拥有全局信息
- Transformer 使用的是Encoder + Decoder的结构
Transformer 整体结构
- 添加了补充信息(手动修改版):
2024年11月4日...大约 9 分钟