M

Minivla Libero90 Prismatic

由 Stanford-ILIAD 开发
MiniVLA是一个10亿参数规模的视觉语言模型,与棱镜视觉语言模型项目代码库兼容,适用于机器人技术和多模态任务。
下载量 127
发布时间 : 12/11/2024
模型介绍
内容详情
替代品

模型简介

MiniVLA是一个高效的视觉语言模型,支持图像文本到文本的转换,适用于多模态任务和机器人技术应用。该模型与棱镜视觉语言模型项目代码库兼容,便于完整微调。

模型特点

棱镜兼容
与棱镜视觉语言模型项目代码库兼容,便于使用原生PyTorch全分片数据并行(FSDP)进行完整微调。
高效多模态
支持图像和文本的多模态处理,适用于复杂的视觉语言任务。
参数高效
10亿参数规模,在保持性能的同时减少计算资源需求。

模型能力

图像文本转换
多模态处理
机器人视觉语言任务

使用案例

机器人技术
视觉语言导航
帮助机器人理解视觉输入并生成相应的文本指令。
多模态交互
支持机器人与人类通过视觉和语言进行交互。
多模态应用
图像描述生成
根据输入图像生成详细的文本描述。