多模态视觉理解

# 多模态视觉理解

Wr30a Deep 7B 0711 I1 GGUF

这是prithivMLmods/WR30a-Deep-7B-0711模型的量化版本，支持多语言，适用于文本生成、图像字幕生成等多种任务。

图像生成文本

Transformers 支持多种语言

Qwen2.5-VL是基于图像文本到文本的多模态模型，在视觉理解、视频处理、结构化输出等方面有显著提升。

图像生成文本英语

Gemma 3 12b It Quantized.w8a8

基于google/gemma-3-12b-it的INT8量化版本，支持视觉文本输入和文本输出，适用于高效推理部署

图像生成文本

Qwen2.5 VL 72B Instruct GGUF

Qwen2.5-VL-72B-Instruct是Qwen家族的最新视觉语言模型，具备强大的视觉理解和视频分析能力，适用于金融、商业等多个领域。

文本生成图像

Transformers 英语

Qwen2.5 VL 3B Instruct GGUF

Qwen2.5-VL是Qwen家族的最新视觉语言模型，具备强大的视觉理解和多模态处理能力。

图像生成文本英语

PE Lang G14 448

感知编码器是通过视觉语言训练实现的最先进图像视频理解编码器，具有强大的泛化能力。

文本生成图像

PE Lang L14 448

感知编码器（PE）是一种通过视觉-语言学习训练而成的先进图像与视频理解编码器，在多种视觉任务上具有最先进性能。

文本生成图像

Qwen2.5-VL-32B-Instruct是Qwen家族的最新视觉语言模型，具备强大的视觉理解和智能代理能力，支持多模态任务处理。

图像生成文本

Transformers 支持多种语言

Qwen2.5 VL 7B Instruct GGUF

Qwen2.5-VL-7B-Instruct 是一个多模态视觉语言模型，支持图像理解和文本生成任务。

图像生成文本英语

Qwen2.5 VL 32B Instruct Exl2 4 25bpw

Qwen2.5-VL-32B-Instruct 是 Qwen 家族的最新视觉语言模型，具备强大的多模态理解和生成能力，支持图像、视频和文本的交互。

文本生成图像

Transformers 英语

christopherthompson81

Amoral Gemma3 12B Vision

基于soob3123/amoral-gemma3-12B的视觉增强版本，结合了Gemma3-12B大语言模型与视觉编码器，支持多模态任务

图像生成文本

Transformers 英语

Qwen2.5 VL Instruct 3B Geo

Qwen2.5-VL是Qwen家族的最新视觉语言模型，专注于增强视觉理解和代理能力。

文本生成图像

Transformers 英语

Mlabonne Gemma 3 4b It Abliterated GGUF

这是一个基于mlabonne/gemma-3-4b-it-abliterated模型的量化版本，使用llama.cpp进行imatrix量化，适用于图像文本到文本任务。

图像生成文本

Toriigate V0.4 7B I1 GGUF

这是对Minthy/ToriiGate-v0.4-7B模型进行的加权/重要性矩阵量化版本，提供多种量化选项以适应不同需求。

图像生成文本英语

Qwen2.5 VL 72B Instruct AWQ Fix

Qwen2.5-VL 是 Qwen 家族的最新视觉语言模型，具备强大的视觉理解和代理能力，支持多格式视觉定位和结构化输出生成。

图像生成文本

Transformers 英语

Qwen2.5 VL 72B Instruct AWQ

Qwen2.5-VL是通义千问团队推出的多模态大语言模型，具备强大的视觉理解和智能代理能力，支持图像、视频、文本等多种输入格式。

文本生成图像

Transformers 英语

Qwen2.5 VL 7B Instruct AWQ

Qwen2.5-VL是通义千问推出的多模态视觉语言模型，具备强大的图像理解和文本生成能力。

图像生成文本

Transformers 英语

Minicpm O 2 6 Gguf

MiniCPM-o 2.6是一个多模态模型，支持视觉和语言任务，专为llama.cpp设计。

图像生成文本

Razorback 12B V0.2

Razorback 12B v0.2 是一个结合了Pixtral 12B和UnslopNemo v3优势的多模态模型，具备视觉理解和语言处理能力。

图像生成文本

Transformers 支持多种语言

Qwen2 VL 72B Instruct GGUF

Qwen2-VL-72B-Instruct的GGUF量化版本，支持多模态图像文本到文本转换，可通过LlamaEdge运行。

图像生成文本

Transformers 英语

Llama 3.2 90B Vision Instruct Unsloth Bnb 4bit

Meta Llama 3.2系列90B参数的多模态大语言模型，支持视觉指令理解，经Unsloth动态4位量化优化

文本生成图像

Transformers 英语

Minicpm V 2 6 Rk3588 1.1.4

MiniCPM-V 2.6是支持单图、多图和视频理解的GPT-4V级别多模态大语言模型，专为RK3588 NPU优化

图像生成文本

Transformers 其他

寒武纪是一个开源的以视觉为核心设计的 multimodal LLM（多模态大语言模型）。

文本生成图像

Phi 3 Vision 128k Instruct

Phi-3-Vision-128K-Instruct是一个轻量级、前沿的开放多模态模型，支持128K令牌的上下文长度，专注于文本和视觉领域的高质量推理。

图像生成文本

Transformers 其他

Llava Phi 3 Mini 4k Instruct

结合Phi-3-mini-3.8B大语言模型与LLaVA v1.5的视觉语言模型，提供先进的视觉语言理解能力。

图像生成文本

Owlv2 Base Patch16

OWLv2是一个基于视觉语言预训练的模型，专注于对象检测和定位任务。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24