rgb-language_cap开源视觉语言模型 - 识别图像物体空间关系并生成描述文本

首页

Rgb Language Cap

由 sadassa17 开发

这是一个具备空间感知能力的视觉语言模型，能够识别图像中物体之间的空间关系并生成描述性文本。

图像生成文本

Transformers

英语开源协议:MIT #空间关系描述 #ViT-GPT2架构 #图像到文本生成

下载量 15

发布时间 : 1/26/2024

模型简介

该模型基于COCO数据集训练，结合了ViT编码器和GPT2解码器架构，专门用于生成包含物体空间关系的图像描述。

模型特点

空间关系识别

能够准确识别并描述图像中物体之间的空间方位关系（如左右、上下等）

结构化输出

输出始终遵循固定格式：'物体1'位于'物体2'的'方位'，便于后续处理

轻量级部署

仅需4GB GPU显存即可运行，适合资源受限环境

模型能力

图像理解

空间关系描述生成

多物体关系分析

使用案例

辅助技术

视觉障碍辅助

为视障人士生成包含空间关系的环境描述

帮助用户理解物体间的相对位置

内容生成

自动图像标注

为图像生成包含空间关系的详细描述

提升图像检索和分类的准确性

属性	详情
模型类型	空间感知视觉语言（VL）模型
训练数据	COCO数据集图像
库名称	transformers
任务标签	图像转文本
标签	text-generation-inference
评估指标	code_eval

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Rgb Language Cap

模型简介

模型特点

模型能力

使用案例

🚀 空间感知视觉语言（VL）模型

🚀 快速开始

运行要求

下载和运行方式

模型输出说明

生成指定数量描述

📄 许可证