M

Minivla Vq Libero90 Prismatic

由 Stanford-ILIAD 开发
MiniVLA是一个轻量级的视觉语言模型,兼容Prismatic VLMs训练框架,支持图像文本到文本的多模态任务。
下载量 31
发布时间 : 12/11/2024
模型介绍
内容详情
替代品

模型简介

MiniVLA是一个预训练的多模态视觉语言模型,专注于图像文本到文本的任务。该模型兼容Prismatic VLMs训练框架,适合进行完整微调。

模型特点

兼容Prismatic训练框架
可直接使用Prismatic VLMs项目代码库进行完整微调
轻量级设计
相比大型视觉语言模型,参数规模更小但性能优异
多模态能力
能够处理图像和文本的联合理解与生成任务

模型能力

图像理解
文本生成
多模态推理
视觉问答

使用案例

机器人技术
视觉导航指令理解
帮助机器人理解视觉场景并生成相应动作指令
内容生成
图像描述生成
根据输入图像生成自然语言描述