M

Minivla History2 Vq Libero90 Prismatic

由 Stanford-ILIAD 开发
MiniVLA是一个更小体积但性能优异的视觉语言动作模型,兼容Prismatic VLMs训练脚本,适用于机器人技术和多模态任务。
下载量 22
发布时间 : 12/11/2024
模型介绍
内容详情
替代品

模型简介

MiniVLA是一个视觉语言动作模型,支持图像文本到文本的转换,具有多模态处理能力。该模型与Prismatic VLMs项目代码库兼容,适合完全微调或通过LoRA进行参数高效微调。

模型特点

兼容Prismatic训练脚本
支持原生PyTorch FSDP完全微调,与Prismatic VLMs项目代码库兼容。
参数高效微调
支持通过LoRA进行参数高效微调,适合计算资源有限的情况。
多模态处理
能够处理图像和文本的联合输入,实现视觉语言动作的建模。

模型能力

图像文本转换
多模态处理
视觉语言动作建模

使用案例

机器人技术
视觉语言动作控制
通过图像和文本输入控制机器人执行特定动作。
多模态交互
图像描述生成
根据输入的图像生成相应的文本描述。