L

Llava V1.5 7b M3

由 mucai 开发
M3是一个允许在运行时显式控制视觉粒度的多模态模型,可作为图像/数据集复杂度的度量标准,基于LLaMA/Vicuna微调而成。
下载量 33
发布时间 : 5/28/2024
模型介绍
内容详情
替代品

模型简介

套娃多模态模型(M3)是一个开源聊天机器人,通过在视觉对话数据上微调LLaMA/Vicuna训练而成。它支持动态调整视觉标记数量,并可作为图像复杂度的评估工具。

模型特点

动态视觉粒度控制
允许在运行时显式控制每个样本的视觉标记数量
复杂度度量标准
模型本身可作为图像/数据集复杂度的度量工具
高效视觉处理
即使每张图像仅使用1或9个视觉标记也能保持强劲性能

模型能力

多模态对话
图像描述生成
视觉问答
图像复杂度评估

使用案例

研究应用
多模态模型研究
用于研究大型多模态模型的行为和性能
视觉表示学习
研究不同视觉粒度下的表示学习效果
教育应用
AI教育工具
作为教学工具展示多模态模型的工作原理