llava_next_mistral_7b_4096开源多模态模型 - 支持图像文本联合理解与生成

首页

Llava Next Mistral 7b 4096

由 Mantis-VL 开发

基于LLaVA-v1.6-Mistral-7B模型微调的多模态模型，支持图像和文本的联合理解与生成

文本生成图像

Transformers

#多模态对话 #长上下文处理 #视觉语言理解

下载量 40

发布时间 : 4/2/2024

模型简介

该模型是LLaVA系列的多模态模型变体，基于Mistral-7B架构，通过视觉-语言对齐训练实现图像理解和文本生成能力

模型特点

长上下文支持

支持4096 tokens的长上下文处理能力

多模态理解

能够同时处理图像和文本输入，实现视觉-语言联合理解

高效微调

基于预训练模型进行高效微调，保持原有语言能力的同时增强视觉理解

模型能力

图像内容理解

视觉问答

图像描述生成

多模态对话

文本生成

使用案例

智能助手

视觉问答助手

回答用户关于图像内容的各类问题

内容生成

图像描述生成

为图像生成详细的文字描述

属性	详情
基础模型	llava-hf/llava-v1.6-mistral-7b-hf
标签	generated_from_trainer

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Llava Next Mistral 7b 4096

模型简介

模型特点

模型能力

使用案例

🚀 llava_next_mistral_7b_4096

📚 详细文档

模型信息

训练超参数

框架版本