P

Prism Qwen25 Extra Dinosiglip 224px 0 5b

由 Stanford-ILIAD 开发
一个在Llava-1.5-Instruct数据集上训练完成的多模态视觉语言模型,兼容Prismatic版本。
下载量 738
发布时间 : 12/12/2024
模型介绍
内容详情
替代品

模型简介

该模型基于Qwen 2.5 0.5B架构,专注于图像文本到文本的转换任务,适用于机器人技术和多模态应用场景。

模型特点

多模态能力
结合视觉和语言处理能力,实现图像到文本的转换。
轻量级架构
基于0.5B参数的Qwen 2.5骨干网络,保持较小体积的同时提供良好性能。
机器人技术优化
特别适用于机器人技术领域的视觉语言任务。

模型能力

图像理解
文本生成
多模态推理
视觉问答

使用案例

机器人技术
视觉导航指令生成
根据环境图像生成导航指令
教育
图像描述生成
为视觉障碍用户生成图像描述