L

Llava Next Mistral 7b 4096

由 Mantis-VL 开发
基于LLaVA-v1.6-Mistral-7B模型微调的多模态模型,支持图像和文本的联合理解与生成
下载量 40
发布时间 : 4/2/2024
模型介绍
内容详情
替代品

模型简介

该模型是LLaVA系列的多模态模型变体,基于Mistral-7B架构,通过视觉-语言对齐训练实现图像理解和文本生成能力

模型特点

长上下文支持
支持4096 tokens的长上下文处理能力
多模态理解
能够同时处理图像和文本输入,实现视觉-语言联合理解
高效微调
基于预训练模型进行高效微调,保持原有语言能力的同时增强视觉理解

模型能力

图像内容理解
视觉问答
图像描述生成
多模态对话
文本生成

使用案例

智能助手
视觉问答助手
回答用户关于图像内容的各类问题
内容生成
图像描述生成
为图像生成详细的文字描述