多模态视觉问答

# 多模态视觉问答

Qwen2.5 VL 72B Instruct FP8 Dynamic

Qwen2.5-VL-72B-Instruct的FP8量化版本，支持视觉-文本输入和文本输出，由Neural Magic优化发布。

图像生成文本

Transformers 英语

Qwen2.5 VL 72B Instruct Quantized.w4a16

Qwen2.5-VL-72B-Instruct的INT4权重量化版本，支持视觉-文本输入和文本输出，通过vLLM实现高效推理

图像生成文本

Transformers 英语

Qwen2.5 VL 3B Instruct Quantized.w4a16

Qwen2.5-VL-3B-Instruct的量化版本，权重量化为INT4，激活量化为FP16，适用于视觉-文本任务的高效推理。

文本生成图像

Transformers 英语

Qwen2.5 VL 72B Instruct FP8 Dynamic

Qwen2.5-VL-72B-Instruct的FP8量化版本，支持视觉-文本输入和文本输出，适用于多模态任务。

文本生成图像

Transformers 英语

Qwen2 VL 7B Instruct GGUF

基于Qwen2-VL-7B-Instruct的多模态模型量化版本，支持图像文本到文本任务，适用于多种量化级别。

图像生成文本英语

Erax VL 7B V2.0 Preview GGUF

EraX-VL-7B-V2.0-Preview 是一个多模态基础模型，支持越南语、英语和中文，适用于多种视觉语言任务。

图像生成文本支持多种语言

Erax VL 2B V1.5 Q4 K M GGUF

这是一个多模态视觉问答模型，支持越南语、英语和中文，基于erax-ai/EraX-VL-2B-V1.5转换的GGUF格式版本。

文本生成图像支持多种语言

QVQ 72B Preview GGUF

QVQ-72B-Preview是基于llamacpp的imatrix量化版本的多模态大语言模型，支持图像和文本的多模态理解与生成。

文本生成图像英语

Qwen2 VL 7B Instruct GGUF

Qwen2-VL-7B-Instruct 是一个多模态视觉语言模型，支持图像和文本的联合理解与生成任务。

图像生成文本英语

Paligemma2 28b Pt 896

PaliGemma 2是Google推出的视觉语言模型(VLM)，融合Gemma 2语言模型和SigLIP视觉模型能力，支持图像和文本输入生成文本输出。

图像生成文本

Paligemma2 3b Mix 224

PaliGemma 2是Google开发的升级版视觉语言模型，结合了Gemma 2的能力，支持图像和文本输入，生成文本输出，适用于多种视觉语言任务。

图像生成文本

Minicpm Llama3 V 2 5 GGUF

MiniCPM-Llama3-V-2_5是一个基于Llama3架构的多模态视觉问答模型，支持中英文交互。

文本生成图像支持多种语言

Llama 3.1 8B Vision 378

该项目训练了一个投影模块，用于为Llama 3添加视觉能力，使用了SigLIP技术，并应用于Llama-3.1-8B-Instruct模型。

图像生成文本

Yi-VL-6B是由01-AI开发的多模态视觉语言模型，支持中文和英文，适用于视觉问答等任务。

图像生成文本

Transformers 支持多种语言

Paligemma 3b Ft Science Qa 448

PaliGemma是由Google开发的30亿参数轻量级视觉语言模型，基于SigLIP视觉模型和Gemma语言模型构建，支持图像和文本输入生成文本输出。

图像生成文本

Paligemma 3b Mix 448

PaliGemma是一款多功能轻量级视觉语言模型(VLM)，基于SigLIP视觉模型和Gemma语言模型构建，支持图像和文本输入并生成文本输出

图像生成文本

Paligemma 3b Ft Docvqa 896

PaliGemma是Google开发的轻量级视觉语言模型，基于SigLIP视觉模型和Gemma语言模型构建，支持多语言图像文本理解与生成。

图像生成文本

Paligemma 3b Ft Vqav2 448

PaliGemma是Google开发的轻量级视觉语言模型，结合图像理解和文本生成能力，支持多语言任务。

文本生成图像

Paligemma 3b Ft Ocrvqa 448

PaliGemma是Google开发的多功能轻量级视觉语言模型(VLM)，基于SigLIP视觉模型和Gemma语言模型构建，支持图像和文本输入，输出文本结果。

图像生成文本

Excalibur 7b DPO

Excalibur-7b-DPO是基于Excalibur-7b基础模型通过直接偏好优化(DPO)微调的大语言模型，专注于提升对话质量和视觉应用场景表现。

大型语言模型

InferenceIllusionist

FireLLaVA-13B是基于开源大语言模型生成指令数据训练的视觉语言模型，支持图像理解和文本生成任务。

图像生成文本

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24