ViT(Google 图像分类模型)
- ViT是一种没有 CNN(卷积神经网络)的图像分类模型(Vision Transformer),从图像分类任务中消除了 CNN
- ViT 将图像拆分为一系列图像补丁嵌入与位置编码混合,并将它们馈送到 Transformer 编码器中。ViT 有一个分类头 (MLP - 多层感知),它产生最终的预测
- 注意力可视化
- ViT 可以捕捉图像中的主要对象,忽略图像中的噪声
- 计算复杂度与输入图像大小呈二次方关系
2025年6月17日...大约 3 分钟
# Role: <name> : 指定角色会让 GPT 聚焦在对应领域进行信息输出
## Profile author/version/description : Credit 和 迭代版本记录
## Goals: 一句话描述 Prompt 目标, 让 GPT Attention 聚焦起来
## Constrains: 描述限制条件, 其实是在帮 GPT 进行剪枝, 减少不必要分支的计算
## Skills: 描述技能项, 强化对应领域的信息权重
## Workflow: 重点中的重点, 你希望 Prompt 按什么方式来对话和输出
# Initialization: 冷启动时的对白, 也是一个强调需注意重点的机会
众所周知,hugging face中很多space资源都是可以直接使用的,那么如何将这些资源用在自己的项目中呢?
在使用Yank Note的 AI Extension时,发现文本转图片的端点是可以免费使用的,我忽然对此产生了兴趣
免费的配置:
带着好奇,我直接打开对应的端点https://black-forest-labs-flux-1-schnell.hf.space:
端点地址: