多模态指令跟随

# 多模态指令跟随

Mistral Small 3.2 24B Instruct 2506

Mistral-Small-3.2-24B-Instruct-2506是一个图像文本到文本的模型，是Mistral-Small-3.1-24B-Instruct-2503的更新版本，在指令遵循、减少重复错误和函数调用等方面有所改进。

文本生成图像

Safetensors 支持多种语言

Dimple是首个结合自回归与扩散训练范式的离散扩散多模态大语言模型（DMLLM），在LLaVA-NEXT相同数据集上训练后，以3.9%的优势超越LLaVA-NEXT-7B。

图像生成文本

Transformers 英语

Qwen团队推出的8B参数规模大语言模型，支持超长上下文和多种语言处理

大型语言模型

lmstudio-community

Qwen2.5 VL 72B Instruct GGUF

Qwen2.5-VL-72B-Instruct是一个72B参数规模的多模态大模型，支持视觉-语言任务，能够理解和生成与图像相关的文本内容。

文本生成图像英语

Smolvlm2 500M Video Instruct Mlx 8bit Skip Vision

基于SmolVLM2-500M-Video-Instruct转换的MLX格式模型，支持视频文本转文本任务

图像生成文本

Transformers 英语

基于unsloth/Llama-3.2-11B-Vision-Instruct进行精调的多模态模型，针对视觉-语言任务优化并增强指令跟随能力，通过Unsloth框架实现2倍训练加速

文本生成图像

Transformers 英语

Turkish LLaVA V0.1

一个专为多模态视觉指令跟随任务设计的土耳其语视觉语言模型，能够同时处理视觉（图像）和文本输入，理解并执行土耳其语提供的指令。

图像生成文本

Safetensors 其他

Llama 3.2 11B Vision Instruct Nf4

基于meta-llama/Llama-3.2-11B-Vision-Instruct的4位量化版本，支持图像理解和文本生成任务

图像生成文本

Spydaz Web AI Llava

LLaVa是一个开源多模态聊天机器人，通过对LLaMA/Vicuna在GPT生成的多模态指令跟随数据上进行微调训练而成，专门为聊天/指令优化的多模态版本LLM。

图像生成文本

Transformers 支持多种语言

Llava 1.5 7b Llara D Inbc Aux B VIMA 80k

LLaRA是一个开源视觉运动策略模型，通过微调LLaVA-7b-v1.5在指令跟随数据和辅助数据集上训练而成，主要用于机器人技术研究。

文本生成文本

MQT-LLaVA是一个开源的多模态聊天机器人模型，基于Transformer架构，通过微调LLaMA/Vicuna在GPT生成的多模态指令数据上训练而成。

文本生成图像

Denseconnector V1.5 8B

DenseConnector 是一个开源聊天机器人，基于 LLaMA/Vicuna 微调，并利用 GPT 生成的多模态指令跟随数据进行训练。

图像生成文本

Llava V1.6 Vicuna 7b

LLaVA是一款开源的多模态聊天机器人，通过对多模态指令跟随数据进行大语言模型微调训练而成。

文本生成图像

LLaVA是一个开源的多模态聊天机器人，基于大语言模型微调训练而成，支持图像和文本的交互。

文本生成图像

Llama Vid 7b Full 224 Video Fps 1

LLaMA-VID是基于LLaMA/Vicuna微调的开源多模态聊天机器人，通过扩展上下文令牌支持长达数小时的视频处理能力。

文本生成视频

LLaVA是一个多模态大模型，通过连接视觉编码器与大语言模型实现通用视觉助手功能

文本生成图像

Japanese Stable Vlm

一款视觉语言指令跟随模型，能够为输入图像生成日语描述，并可选地处理输入文本（如问题）。

图像生成文本

Transformers 日语

BakLLaVA-1是基于Mistral 7B模型，并采用LLaVA 1.5架构增强的多模态模型，在多个基准测试上超越了Llama 2 13B的表现。

文本生成图像

Transformers 英语

Llava V1.5 Mlp2x 336px Pretrain Vicuna 7b V1.5

LLaVA 是一个开源多模态聊天机器人，基于 LLaMA/Vicuna 进行微调，通过 GPT 生成的多模态指令跟随数据训练而成。

文本生成图像

LLaVA 是一款开源多模态聊天机器人，基于 LLaMA/Vicuna 微调，支持图文交互。

图像生成文本

Speechgpt 7B Cm

SpeechGPT是一个具备内在跨模态对话能力的大型语言模型，能够感知和生成多模态内容，支持语音与文本的交互。

文本生成音频

Speechgpt 7B Ma

SpeechGPT是一个具备内在跨模态对话能力的大型语言模型，能够根据人类指令感知和生成多模态内容。

文本生成音频

Instructblip Vicuna 7b 8bit

InstructBLIP-Vicuna-7B 是一个基于 Vicuna-7B 的视觉-语言模型，支持图像到文本的转换任务。

图像生成文本

Mediocreatmybest

Llava Llama 2 7b Chat Lightning Lora Preview

LLaVA是一款开源多模态聊天机器人，基于LLaMA/Vicuna微调，通过GPT生成的多模态指令跟随数据训练而成。

文本生成图像

Llava Lightning 7B Delta V1 1

LLaVA是基于LLaMA/Vicuna通过GPT生成的多模态指令跟随数据微调的开源聊天机器人

文本生成图像

Llava 7b Delta V0

LLaVA是基于LLaMA/Vicuna通过GPT生成的多模态指令跟随数据微调的开源聊天机器人，支持视觉与语言的多模态交互。

文本生成图像

Llava 13b Delta V0

LLaVA是基于LLaMA/Vicuna通过GPT生成的多模态指令跟随数据微调的开源聊天机器人，属于基于Transformer架构的自回归语言模型。

文本生成图像

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24