R

Rgb Language Cap

由 voxreality 开发
这是一个基于COCO数据集训练的视觉语言模型,能够生成包含图像实体间空间关系的描述文本。
下载量 24
发布时间 : 9/3/2024
模型介绍
内容详情
替代品

模型简介

该模型采用ViT编码器与GPT2解码器的序列到序列架构,专为图像描述生成设计,输出始终包含物体间的空间方位关系。

模型特点

空间关系感知
生成的描述文本会明确标注物体间的空间方位关系(如'位于左侧')
可控输出长度
支持通过参数控制生成描述的最大句数(最多5句)
轻量级部署
仅需4GB GPU显存即可运行

模型能力

图像描述生成
空间关系识别
多句子文本生成

使用案例

辅助技术
视觉障碍辅助
为视障用户生成包含空间关系的环境描述
帮助用户理解物体间的相对位置
内容生成
自动图像标注
为图像库生成包含空间信息的元数据
提升图像检索的准确性