多模态对话

# 多模态对话

Spatial LLaVA 7B Gguf

Spatial-LLaVA-7B是基于LLaVA模型微调的多模态模型，专注于提升空间关系推理能力，适用于多模态研究和聊天机器人开发。

文本生成图像

Qwen3 8B NEO Imatrix Max GGUF

基于Qwen3-8B模型的NEO Imatrix量化版本，支持32K长上下文和增强推理能力

大型语言模型

VL Rethinker 72B Mlx 4bit

VL-Rethinker-72B的4位量化版本，适用于苹果设备的MLX框架，支持视觉问答任务。

文本生成图像英语

Gemma 3 12b It GPTQ 4b 128g

该模型是对google/gemma-3-12b-it进行INT4量化的版本，通过GPTQ算法将参数从16比特降至4比特，显著减少了磁盘空间和GPU内存需求。

图像生成文本

Vora 7B Instruct

VoRA是一个基于7B参数的视觉-语言模型，专注于图像文本到文本的转换任务。

图像生成文本

VoRA是一个基于7B参数的视觉语言模型，能够处理图像和文本输入，生成文本输出。

图像生成文本

Qwen2.5 VL 7B Instruct Q4 K M GGUF

这是Qwen2.5-VL-7B-Instruct模型的GGUF量化版本，适用于多模态任务，支持图像和文本输入。

图像生成文本英语

Q-SiT Mini是一个轻量级的图像质量评估与对话模型，专注于图像质量分析和评分。

图像生成文本

Llava NeXT Video 7B Hf

LLaVA-NeXT-Video-7B-hf 是一个基于视频的多模态模型，能够处理视频和文本输入，生成文本输出。

视频生成文本

Safetensors 英语

Internvl2 5 4B AWQ

InternVL2_5-4B-AWQ 是使用 autoawq 对 InternVL2_5-4B 进行 AWQ 量化的版本，支持多语言和多模态任务。

图像生成文本

Transformers 其他

Qwen2.5 VL 7B Instruct GPTQ Int4

Qwen2.5-VL-7B-Instruct-GPTQ-Int4是基于Qwen2.5-VL-7B-Instruct模型进行非官方GPTQ-Int4量化的版本，支持图文到文本的多模态任务。

图像生成文本

Transformers 支持多种语言

Internvl 2 5 HiCo R64

基于长且丰富的上下文（LRC）建模增强的视频多模态大语言模型，通过提升感知细粒度细节和捕捉长时态结构的能力改进现有MLLM

视频生成文本

Transformers 英语

Internlm Xcomposer2d5 7b Chat

InternLM-XComposer2.5-Chat是基于InternLM-XComposer2.5-7B训练的对话模型，在多模态指令跟随和开放式对话能力方面有显著提升。

文本生成图像

QVQ 72B Preview Abliterated GPTQ Int8

这是QVQ-72B-Preview-abliterated模型的GPTQ量化8位版本，支持图像文本到文本的转换任务。

图像生成文本

Transformers 英语

Apollo LMMs Apollo 7B T32

Apollo是一系列专注于视频理解的大型多模态模型，擅长处理长达一小时的视频内容，支持复杂视频问答和多轮对话。

视频生成文本

Transformers 英语

Apollo LMMs Apollo 1 5B T32

Apollo 是一系列专注于视频理解的大型多模态模型，擅长处理长视频内容理解、时序推理和复杂视频问答等任务。

视频生成文本

Qwen2 VL 7B Instruct GGUF

Qwen2-VL-7B-Instruct 是一个多模态视觉语言模型，支持图像和文本的联合理解与生成。

文本生成图像

Transformers 英语

Qwen2 VL 2B Instruct GGUF

Qwen2-VL-2B-Instruct 是一个视觉语言模型，提供 GGUF 格式的量化版本，适用于 llama.cpp 环境。

文本生成图像

Transformers 英语

Llama3.1 Typhoon2 Audio 8b Instruct

台风2-音频版是一个端到端的语音转语音模型架构，能够处理音频、语音和文本输入，并同时生成文本和语音输出。该模型专门针对泰语优化，同时也支持英语。

文本生成音频

Transformers 支持多种语言

Mini InternVL2 1B DA DriveLM

Mini-InternVL2-DA-RS是针对遥感图像领域优化的多模态模型，基于Mini-InternVL架构，通过领域适配框架微调，在遥感图像理解任务上表现优异。

图像生成文本

Transformers 其他

VARCO VISION 14B HF

VARCO-VISION-14B是一款强大的英韩视觉语言模型，支持图像和文本输入，生成文本输出，具备定位、指代和OCR功能。

图像生成文本

Transformers 支持多种语言

ChatRex是一款擅长感知的多模态大语言模型，能在回答问题的同时将答案关联到具体对象。

图像生成文本

Safetensors 英语

GLM-Edge-V-5B是一个50亿参数的多模态模型，支持图像和文本输入，能够执行图像理解和文本生成任务。

图像生成文本

GLM-Edge-V-2B是一个基于Pytorch框架的图像文本到文本模型，支持中文处理。

图像生成文本

MMDuet是一个支持视频播放时实时交互的VideoLLM模型，专注于时间敏感的视频理解任务。

视频生成文本英语

Aria Sequential Mlp Bnb Nf4

基于Aria-sequential_mlp的BitsAndBytes NF4量化版本，适用于图像文本到文本任务，显存需求约15.5 GB。

图像生成文本

Aria Sequential Mlp FP8 Dynamic

基于Aria-sequential_mlp的FP8动态量化模型，适用于图像文本到文本任务，显存需求约30GB。

图像生成文本

Mplug Owl3 1B 241014

mPLUG-Owl3 是一款先进的多模态大语言模型，专注于解决长图像序列理解的挑战，通过超注意力机制显著提升处理速度和序列长度。

文本生成图像英语

Mplug Owl3 2B 241014

mPLUG-Owl3 是一款先进的多模态大语言模型，专注于解决长图像序列理解的挑战，通过超注意力机制显著提升处理速度和序列长度。

文本生成图像

Safetensors 英语

Videochat2 HD Stage4 Mistral 7B Hf

VideoChat2-HD-hf是一个基于Mistral-7B的多模态视频理解模型，专注于视频文本转换任务。

视频生成文本

Qwen2 Vl Tiny Random

这是一个基于Qwen2-VL-7B-Instruct配置随机初始化的小型调试模型，用于视觉语言任务

图像生成文本

Qwen2 Audio 7B Instruct 4bit

这是Qwen2-Audio-7B-Instruct的4位量化版本，基于阿里巴巴云原版Qwen模型开发，是一个音频-文本多模态大语言模型。

音频生成文本

Internvideo2 Chat 8B InternLM2 5

InternVideo2-Chat-8B-InternLM2.5是一个视频-文本多模态模型，通过整合InternVideo2视频编码器与大型语言模型(LLM)来增强视频理解和人机交互能力。

视频生成文本

Mplug Owl3 7B 240728

mPLUG-Owl3 是一款前沿的多模态大语言模型，专为解决长图像序列理解难题而设计，支持处理单图、多图和视频任务。

文本生成图像英语

Banban Beta V2 Gguf

AI虚拟主播板板模型，专为NTNU VLSI社团设计的虚拟主播助手，具有图像文本到文本的能力。

图像生成文本支持多种语言

Internvideo2 Chat 8B HD

InternVideo2-Chat-8B-HD 是一个结合了大型语言模型和视频BLIP的视频理解模型，通过渐进式学习方案构建，能够处理高清视频输入。

视频生成文本

LLaVA-Saiga-8b是基于IlyaGusev/saiga_llama3_8b模型开发的视觉-语言模型（VLM），主要适配俄语任务，但仍具备英语处理能力。

图像生成文本

Transformers 支持多种语言

Tinyllava 1.1b V0.1

基于TinyLlama-1.1B的轻量级视觉问答模型，通过BakLlava代码库训练而成，支持图像内容理解和问答任务。

文本生成图像

Llava Calm2 Siglip

llava-calm2-siglip 是一个实验性的视觉语言模型，能够用日语和英语回答关于图像的问题。

图像生成文本

Transformers 支持多种语言

Paligemma 3B Chat V0.2

基于google/paligemma-3b-mix-448微调的多模态对话模型，专为多轮对话场景优化

文本生成图像

Transformers 支持多种语言

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24