多模态指令理解

# 多模态指令理解

Mistral Small 3.2 24B Instruct 2506 GGUF

Mistral-Small-3.2-24B-Instruct-2506 是一个图像文本到文本的模型，在模型量化方面表现出色，指令遵循、减少重复错误和函数调用等方面有显著提升。

图像生成文本支持多种语言

Pixelreasoner RL V1

PixelReasoner是一个基于Qwen2.5-VL-7B-Instruct的视觉语言模型，采用好奇心驱动强化学习训练，专注于图像文本到文本的任务。

图像生成文本

Transformers 英语

Qwen2.5-VL-7B-Instruct 是一个基于 Qwen2.5 架构的多模态模型，支持图像和文本的联合处理，适用于视觉语言任务。

图像生成文本英语

Ultravox V0 5 Llama 3 1 8b

基于Llama-3.1-8B-Instruct的多语言音频文本转文本模型，支持40多种语言处理

大型语言模型

Transformers 支持多种语言

Llama 4 Scout 17B 16E Instruct FP8 Dynamic

基于Llama-4构建的17B参数多语言指令模型，采用FP8量化优化，显著降低资源需求

图像生成文本

Safetensors 支持多种语言

Qwen2.5 VL 32B Instruct GGUF

Qwen2.5-VL-32B-Instruct 是一个32B参数规模的多模态视觉语言模型，支持图像和文本的联合理解与生成任务。

图像生成文本英语

Qwen.qwen2.5 VL 32B Instruct GGUF

Qwen2.5-VL-32B-Instruct 是一个32B参数规模的多模态视觉语言模型，支持图像与文本的联合理解与生成任务。

图像生成文本

Qwen2.5 VL 32B Instruct W4A16 G128

Qwen2.5-VL-32B-Instruct 是一个32B参数规模的多模态大语言模型，支持视觉和语言任务，适用于复杂的多模态交互场景。

图像生成文本

Qwen2 VL 2B Instruct

Qwen2-VL-2B-Instruct 是一个多模态视觉语言模型，支持图像文本到文本的任务。

图像生成文本

Transformers 英语

Instructclip InstructPix2Pix

InstructCLIP是一种通过对比学习自动数据优化改进指令引导的图像编辑模型，结合了CLIP和稳定扩散技术，能够根据文本指令编辑图像。

文本生成图像英语

Qwen2 VL 7B Visual Rft Lisa IoU Reward

Qwen2-VL-7B-Instruct 是一个基于 Qwen2 架构的视觉语言模型，支持图像和文本的多模态输入，适用于多种视觉语言任务。

图像生成文本英语

Qwen 2 VL 7B OCR

基于Qwen2-VL-7B模型的微调版本，使用Unsloth和Huggingface的TRL库进行训练，速度提升2倍。

文本生成图像

Transformers 英语

Llama 3.2 11B Vision OCR

基于Unsloth优化的Llama 3.2-11B视觉指令模型，4bit量化版本，训练速度提升2倍

大型语言模型

Transformers 英语

Llama 3 2 11b Vision Electrical Components Instruct

Llama 3.2 11B Vision Instruct 是一个结合视觉和语言的多模态模型，支持图像转文本任务。

图像生成文本英语

Phi 4 Multimodal Instruct

Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型，融合了Phi-3.5和4.0模型的语言、视觉及语音研究与数据集。支持文本、图像和音频输入，生成文本输出，并具备128K标记的上下文长度。

多模态融合

Transformers 支持多种语言

Phi 4 Multimodal Instruct Onnx

Phi-4多模态模型的ONNX版本，已量化为int4精度，通过ONNX Runtime加速推理，支持文本、图像和音频输入。

多模态融合其他

Qwen2.5 VL 7B Instruct 4bit

基于Qwen2.5-VL-7B-Instruct模型微调的多模态模型，采用Unsloth加速框架和TRL库训练，速度提升2倍

文本生成图像

Transformers 英语

Llama 3.2 11B Vision Instruct GGUF

Llama-3.2-11B-Vision-Instruct 是一个支持多语言的视觉-语言模型，可用于图像文本到文本的转换任务。

图像生成文本

Transformers 支持多种语言

Pixtral Large Instruct 2411

Pixtral-Large-Instruct-2411是基于MistralAI技术的多模态指令微调模型，支持图像和文本输入，具备多语言处理能力。

图像生成文本

Transformers 支持多种语言

Qwen2 VL 7B Instruct GGUF

Qwen2-VL-7B-Instruct 是一个7B参数规模的多模态模型，支持图像与文本的交互任务。

图像生成文本英语

Qwen2 VL 7B Instruct Onnx

这是一个基于Qwen2-VL架构的7B参数规模的视觉语言模型，支持图像理解和指令交互。

文本生成图像

Taivisionlm Base V2

首个支持繁体中文指令输入的视觉语言模型（12亿参数），兼容Transformers库，加载迅速、微调便捷

图像生成文本

Transformers 中文

Openvla 7b Finetuned Libero 10

该模型是通过在LIBERO-10数据集上采用LoRA方法微调OpenVLA 7B模型得到的视觉语言动作模型，适用于机器人技术领域。

图像生成文本

Transformers 英语

Openvla 7b Finetuned Libero Goal

这是一个在LIBERO-Goal数据集上使用LoRA技术微调的OpenVLA 7B视觉语言动作模型，适用于机器人技术领域。

图像生成文本

Transformers 英语

Octo小型版是一个用于机器人控制的扩散策略模型，采用Transformer架构，能够根据视觉输入和语言指令预测机器人动作。

多模态融合

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24