U

Uform Gen

由 unum-cloud 开发
UForm-Gen是一款小型生成式视觉语言模型,主要用于图像描述生成和视觉问答。
下载量 152
发布时间 : 12/25/2023
模型介绍
内容详情
替代品

模型简介

UForm-Gen是一个口袋级多模态AI模型,结合视觉编码器和语言模型,用于内容理解与生成,特别擅长图像描述和视觉问答任务。

模型特点

轻量高效
仅1.5B参数的小型模型,推理速度达到140 token/秒,是7B模型的3.5倍
多模态理解
结合视觉和语言能力,能同时处理图像和文本输入
多功能生成
通过提示词控制可执行图像描述、内容摘要或视觉问答等多种任务

模型能力

图像描述生成
视觉问答
内容摘要
多模态理解

使用案例

内容理解
图像描述
为图像生成详细或简洁的文字描述
CLIPScore达到0.847(长文本)/0.842(短文本)
视觉问答
回答关于图像内容的自然语言问题
VQAv2数据集准确率66.5
内容创作
社交媒体内容生成
为社交媒体自动生成配图文字