F

Fuyu 8b

由 adept 开发
Fuyu-8B是Adept AI开发的多模态文本-图像转换器,专为数字代理设计,支持任意图像分辨率,响应迅捷且架构简洁。
下载量 14.22k
发布时间 : 10/17/2023
模型介绍
内容详情
替代品

模型简介

Fuyu-8B是一个多模态模型,能够接收图像与文本输入并生成文本输出,特别适合数字代理应用,如解析图表、回答基于用户界面的问题等。

模型特点

简洁架构
采用纯解码器Transformer设计,不含独立图像编码器,图像块通过线性投影直接输入Transformer首层,架构简洁便于理解、扩展和部署。
任意图像分辨率支持
支持任意图像分辨率,图像标记序列视同文本标记序列处理,移除图像专用位置嵌入,按光栅扫描顺序输入所需数量的图像标记。
快速响应
处理大尺寸图像响应时间低于100毫秒,适合实时应用场景。
多场景优化
虽针对数字代理场景优化,在标准图像理解基准测试中仍表现优异,支持少样本学习和多场景微调。

模型能力

图像理解
文本生成
图表解析
用户界面问题回答
屏幕图像细粒度定位

使用案例

数字代理
图表解析
解析图表数据并回答相关问题
在AI2D图表解析测试中得分64.5
用户界面交互
回答基于用户界面的问题
图像理解
视觉问答
回答关于图像内容的自然语言问题
在VQAv2测试中得分74.2
图像描述生成
生成COCO风格的图像描述
在COCO字幕生成测试中得分141