license: cc-by-nc-4.0
Fuyu-8B 模型卡片
我们发布了Fuyu-8B,这是我们产品所采用的多模态模型的小型版本。该模型已在HuggingFace平台开放下载。Fuyu-8B的亮点在于:
- 相比其他多模态模型,其架构和训练流程更为简洁,便于理解、扩展和部署
- 专为数字代理设计,可支持任意图像分辨率,解析图表图示,回答基于用户界面的问题,并能对屏幕图像进行细粒度定位
- 响应迅捷——处理大尺寸图像响应时间低于100毫秒
- 虽针对特定场景优化,在视觉问答、自然图像描述等标准图像理解基准测试中仍表现优异
请注意:本次发布的是基础模型。针对详细描述生成或多模态对话等具体场景,用户需进行微调。实践证明,该模型在少样本学习和多场景微调中均表现良好。
模型架构
Fuyu-8B是由Adept AI训练的多模态文本-图像转换器。
其架构采用纯解码器Transformer设计——不含独立图像编码器。图像块通过线性投影直接输入Transformer首层,跳过了嵌入查找环节。我们将Transformer解码器视为图像转换器使用(仅取消池化并采用因果注意力机制)。架构示意图如下:

这种简化设计支持任意图像分辨率。我们将图像标记序列视同文本标记序列处理,移除图像专用位置嵌入,按光栅扫描顺序输入所需数量的图像标记。通过特殊换行符标记实现分行处理。模型可利用现有位置嵌入推理不同尺寸图像,训练时可直接使用任意尺寸图像,无需分阶段处理不同分辨率。
模型规格
- 开发机构: Adept-AI
- 模型类型: 纯解码器多模态Transformer
- 许可协议: CC-BY-NC
- 功能描述: 可接收图像与文本输入并生成文本的多模态模型
- 延伸阅读: 参阅我们的技术博客
基准测试
虽非主要目标,我们仍评估了标准图像理解任务表现:
测试任务 |
Fuyu-8B |
Fuyu-Medium |
LLaVA 1.5 (13.5B) |
QWEN-VL (10B) |
PALI-X (55B) |
PALM-e-12B |
PALM-e-562B |
VQAv2 |
74.2 |
77.4 |
80 |
79.5 |
86.1 |
76.2 |
80.0 |
OKVQA |
60.6 |
63.1 |
n/a |
58.6 |
66.1 |
55.5 |
66.1 |
COCO字幕生成 |
141 |
138 |
n/a |
n/a |
149 |
135 |
138 |
AI2D图表解析 |
64.5 |
73.7 |
n/a |
62.3 |
81.2 |
n/a |
n/a |
使用指南
加载模型进行推理的示例代码:
from transformers import FuyuProcessor, FuyuForCausalLM
from PIL import Image
import requests
model_id = "adept/fuyu-8b"
processor = FuyuProcessor.from_pretrained(model_id)
model = FuyuForCausalLM.from_pretrained(model_id, device_map="cuda:0")
text_prompt = "生成COCO风格描述\n"
url = "https://huggingface.co/adept/fuyu-8b/resolve/main/bus.png"
image = Image.open(requests.get(url, stream=True).raw)
inputs = processor(text=text_prompt, images=image, return_tensors="pt").to("cuda:0")
generation_output = model.generate(**inputs, max_new_tokens=7)
generation_text = processor.batch_decode(generation_output[:, -7:], skip_special_tokens=True)
assert generation_text == ['一辆蓝色巴士停靠在路边。']
注:|SPEAKER|
是图像块嵌入占位符,|NEWLINE|
表示图像换行标记,\x04
为答案起始符。
该模型亦支持自然图像与图表问答(建议微调以获得最佳效果):
text_prompt = "巴士是什么颜色?\n"
generation_text = ["巴士是蓝色的\n"]
text_prompt = "男性出生时最高预期寿命是多少?\n"
generation_text = ["2018年男性出生预期寿命为80.7岁\n"]
建议在问题结尾添加换行符\n
以优化效果。
应用场景
直接使用
本模型仅限研究用途。由于是原始模型版本,未添加微调、后处理或采样策略来控制不良输出,用户需根据应用场景自行微调。
适用研究方向包括:
非适用场景
该模型未针对人物或事件的真实性进行专项训练,因此生成此类内容超出模型能力范围。
局限性与偏差
局限性
偏差风险
尽管模型能力突出,但仍可能强化或加剧社会偏见。