LLaRA开源视觉运动策略模型 - 免费用于机器人技术研究的实用工具

Llava 1.5 7b Llara D Inbc Aux B VIMA 80k

由 variante 开发

LLaRA是一个开源视觉运动策略模型，通过微调LLaVA-7b-v1.5在指令跟随数据和辅助数据集上训练而成，主要用于机器人技术研究。

下载量 390

发布时间 : 7/13/2024

模型简介

LLaRA是一个用于机器人技术的大型多模态模型，能够处理视觉和语言输入以生成运动策略。

多模态处理能力

能够同时处理视觉和文本输入，生成相应的运动策略

机器人技术专用

专门为机器人应用设计和优化，适合视觉语言策略研究

开源模型

基于Apache 2.0许可证开源，便于研究和扩展

视觉语言理解

运动策略生成

多模态指令跟随

机器人技术

视觉指令跟随

根据视觉和语言指令生成机器人运动策略

多模态任务规划

结合视觉和语言输入进行复杂任务规划

属性	详情
模型类型	LLaRA是一个开源的视觉运动策略模型，通过在指令跟随数据 `D-inBC` 和4个辅助数据集（从 VIMA-Data 转换而来）上微调 LLaVA-7b-v1.5 进行训练。关于转换代码，请参考 convert_vima.ipynb
模型日期	llava-1.5-7b-llara-D-inBC-Aux-B-VIMA-80k 于2024年6月进行训练。
更多信息的论文或资源	https://github.com/LostXine/LLaRA
关于模型的问题或评论发送地址	https://github.com/LostXine/LLaRA/issues