多模态视觉语言

# 多模态视觉语言

GLM 4.1V 9B MLX 4bit

这是一个基于THUDM/GLM-4.1V-9B-Thinking转换而来的MLX格式模型，支持视觉语言任务。

文本生成图像支持多种语言

Qwen2.5 VL 7B Instruct Gemlite Ao A8w8

这是一个经过A8W8量化的多模态大语言模型，基于Qwen2.5-VL-7B-Instruct，支持视觉和语言任务。

图像生成文本

Llava 1.5 13b Hf I1 GGUF

该项目提供了llava-1.5-13b-hf模型的加权/矩阵量化版本，包含多种量化类型选择，适用于不同场景下的使用需求。

文本生成图像

Transformers 英语

Spaceqwen2.5 VL 3B Instruct I1 GGUF

SpaceQwen2.5-VL-3B-Instruct是一个3B参数的视觉语言模型，专注于空间推理和多模态任务。

文本生成图像英语

Qwen.qwen2.5 VL 72B Instruct GGUF

Qwen2.5-VL-72B-Instruct是通义千问团队开发的大规模视觉语言模型，支持图像和文本的多模态理解与生成。

图像生成文本

VLM R1 Qwen2.5VL 3B OVD 0321

基于Qwen2.5-VL-3B-Instruct的零样本目标检测模型，通过VLM-R1强化学习增强，支持开放词汇检测任务。

文本生成图像英语

鹰隼2号是一个高性能视觉语言模型家族，专注于数据策略和训练方案的透明性，旨在推动开源社区开发具有竞争力的视觉语言模型。

图像生成文本

Transformers 其他

Eagle2是NVIDIA推出的高性能视觉语言模型家族，专注于通过数据策略和训练方案提升开源视觉语言模型的性能。Eagle2-2B是该系列中的轻量级模型，在保持强劲性能的同时实现卓越效率和速度。

文本生成图像

Transformers 其他

Qwen2 VL 7B GGUF

Qwen2-VL-7B 是一个视觉语言模型，提供多种量化版本的 GGUF 格式模型文件，适用于 llama.cpp 使用。

文本生成图像

Transformers 英语

Qwen2 VL 2B GGUF

Qwen2-VL-2B 是一个视觉语言模型，提供 GGUF 格式的量化版本，适用于多种场景。

文本生成图像

Transformers 英语

Minivla Libero90 Prismatic

MiniVLA是一个10亿参数规模的视觉语言模型，与棱镜视觉语言模型项目代码库兼容，适用于机器人技术和多模态任务。

图像生成文本

Transformers 英语

Paligemma2 28b Mix 224

PaliGemma 2是Google推出的升级版视觉语言模型，结合Gemma 2和SigLIP视觉模型能力，支持多语言图像文本交互任务。

图像生成文本

Paligemma2 28b Mix 448

PaliGemma 2是基于Gemma 2的视觉语言模型，支持图像+文本输入，输出文本响应，适用于多种视觉语言任务。

图像生成文本

Paligemma2 10b Pt 896

PaliGemma 2是Google推出的视觉语言模型(VLM)，融合Gemma 2能力，支持图像和文本输入生成文本输出

图像生成文本

Paligemma2 10b Pt 448

PaliGemma 2是Google推出的升级版视觉语言模型(VLM)，融合Gemma 2能力，支持图像和文本输入生成文本输出。

图像生成文本

Paligemma2 10b Pt 224

PaliGemma 2是一款视觉语言模型（VLM），结合了Gemma 2模型的能力，能够同时处理图像和文本输入，并生成文本输出，支持多种语言。适用于图像和短视频字幕、视觉问答、文本阅读、目标检测和目标分割等多种视觉语言任务。

图像生成文本

Paligemma2 3b Pt 896

PaliGemma 2是一款多模态视觉语言模型，结合图像和文本输入生成文本输出，支持多语言，适用于多种视觉语言任务。

图像生成文本

Paligemma2 3b Pt 448

PaliGemma 2是基于Gemma 2的视觉语言模型，支持图像和文本输入，生成文本输出，适用于多种视觉语言任务。

图像生成文本

Paligemma2 3b Pt 224

PaliGemma 2是Google开发的视觉语言模型(VLM)，结合了Gemma 2语言模型和SigLIP视觉模型的能力，支持多语言视觉语言任务。

图像生成文本

Paligemma2 10b Mix 224

PaliGemma 2是基于Gemma 2的视觉语言模型，支持图像和文本输入，生成文本输出，适用于多种视觉语言任务。

图像生成文本

Paligemma2 3b Mix 448

PaliGemma 2是基于Gemma 2的视觉语言模型，支持图像与文本输入，输出生成文本，适用于多种视觉语言任务。

图像生成文本

Paligemma2 10b Ft Docci 448

PaliGemma 2是Google推出的多功能视觉语言模型(VLM)，结合图像和文本处理能力，支持多语言和多任务处理。

图像生成文本

Paligemma2 3b Ft Docci 448

PaliGemma 2是Google推出的升级版视觉语言模型，结合Gemma 2和SigLIP视觉模型的能力，支持多语言视觉语言任务。

图像生成文本

Llama 3.1 8B Dragonfly V2

蜻蜓是基于Llama 3.1通过指令微调训练的多模态视觉语言模型，支持图像与文本的联合理解与生成

图像生成文本英语

togethercomputer

OpenVLA v0.1 7B是一个开源视觉-语言-动作模型，基于Open X-Embodiment数据集训练，支持多种机器人控制。

文本生成图像

Transformers 英语

Paligemma 3b Ft Widgetcap 224

PaliGemma是一款多功能轻量级视觉语言模型，结合图像和文本输入生成文本输出，支持多语言，在多种视觉语言任务中表现出色。

图像生成文本

Paligemma 3b Ft Scicap 448

PaliGemma是一款多功能轻量级视觉语言模型，结合图像和文本输入生成文本输出，支持多语言。

文本生成图像

Paligemma 3b Ft Cococap 224

PaliGemma是一款多功能轻量级视觉语言模型（VLM），支持多语言输入输出，适用于多种视觉语言任务。

图像生成文本

Paligemma 3b Pt 448

PaliGemma是一款轻量级多功能视觉语言模型，基于SigLIP视觉模型和Gemma语言模型构建，支持多语言图像文本交互任务。

图像生成文本

Paligemma 3b Pt 896

PaliGemma是一款多功能轻量级视觉语言模型(VLM)，支持图像和文本输入，生成文本输出，具备多语言能力。

图像生成文本

Paligemma 3b Ft Nlvr2 224

PaliGemma是一款多功能轻量级视觉语言模型（VLM），支持多语言输入输出，擅长图像字幕、视觉问答等多种视觉语言任务。

文本生成图像

Paligemma 3b Ft Nlvr2 448

PaliGemma是一款多功能且轻量级的视觉语言模型（VLM），支持图像和文本输入，生成文本输出，适用于多种视觉语言任务。

文本生成图像

Paligemma 3b Ft Vqav2 224

PaliGemma是一款多功能轻量级视觉语言模型，结合图像和文本输入生成文本输出，支持多语言。

文本生成图像

Paligemma 3b Ft Refcoco Seg 896

PaliGemma是Google开发的轻量级视觉语言模型，基于SigLIP视觉模型和Gemma语言模型构建，支持多语言文本生成和视觉理解任务。

图像生成文本

Paligemma 3b Mix 224

PaliGemma是一款多功能、轻量级的视觉语言模型(VLM)，基于SigLIP视觉模型和Gemma语言模型构建，支持图像和文本输入，输出文本结果。

文本生成图像

Paligemma 3b Ft Rsvqa Lr 224

PaliGemma是一款多功能轻量级视觉语言模型（VLM），结合图像和文本输入生成文本输出，支持多语言。

文本生成图像

Paligemma 3b Pt 224

PaliGemma是一款多功能轻量级视觉语言模型(VLM)，基于SigLIP视觉模型和Gemma语言模型构建，能同时处理图像和文本输入并生成文本输出。

图像生成文本

Paligemma 3b Ft Scicap 224

PaliGemma是一款轻量级视觉语言模型，结合图像和文本输入生成文本输出，支持多语言和多任务处理。

图像生成文本

Paligemma 3b Ft Ocrvqa 896

PaliGemma是一款多功能轻量级视觉语言模型，支持图像和文本输入，生成文本输出，适用于多种视觉语言任务。

图像生成文本

Paligemma 3b Ft Science Qa 224

PaliGemma是一款多功能轻量级视觉语言模型（VLM），支持图像和文本输入，生成文本输出，适用于多种视觉语言任务。

文本生成图像

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24