多模态理解

# 多模态理解

Treevgr 7B CI I1 GGUF

TreeVGR-7B-CI 是一个基于视觉的问答、视觉定位和视觉推理的模型量化版本，适用于多种视觉任务场景。

文本生成图像

Transformers 英语

Wr30a Deep 7B 0711 GGUF

这是 prithivMLmods/WR30a-Deep-7B-0711 模型的静态量化版本，支持多种自然语言处理和视觉理解任务。

图像生成文本

Transformers 支持多种语言

Gemma 3 27b It Quantized.w4a16

这是google/gemma-3-27b-it的量化版本，支持视觉-文本输入和文本输出，通过权重量化和激活量化优化，可使用vLLM进行高效推理。

图像生成文本

Nvidia.cosmos Reason1 7B GGUF

Cosmos-Reason1-7B是英伟达发布的7B参数规模的基础模型，专注于图文转文本任务。

大型语言模型

Devstral Small Vision 2505 GGUF

基于Mistral Small模型的视觉编码器，支持图像文本生成任务，适配llama.cpp框架

图像生成文本

Fastvlm 0.5B Stage3

FastVLM-0.5B-Stage3 是一个高效的多模态语言模型，具备视觉理解和语言处理能力，能够处理长视频并生成结构化输出。

图像生成文本

Transformers 英语

Fastvlm 0.5B Stage2

FastVLM-0.5B-Stage2是一个高效的多模态语言模型，能够理解视觉内容并处理文本任务。

多模态融合

Transformers 英语

Magma-8B是一个基于GGUF格式的图像文本到文本转换模型，适用于多模态任务处理。

图像生成文本

专为泰英双语现实场景文档解析打造的视觉语言模型，基于Qwen2.5-VL-Instruction框架

图像生成文本

Transformers 支持多种语言

Gemma 3 1b It Qat Bnb 4bit

Gemma 3是Google推出的轻量级开放模型系列，基于Gemini技术构建，支持多模态输入和文本输出。

图像生成文本

Qwen Qwen2.5 VL 72B Instruct GGUF

Qwen2.5-VL-72B-Instruct的多模态大语言模型量化版本，支持图像文本到文本任务，适用于多种量化级别，从高精度到低内存需求。

文本生成图像英语

Qwen Qwen2.5 VL 7B Instruct GGUF

Qwen2.5-VL-7B-Instruct的量化版本，使用llama.cpp进行量化，支持多模态任务，适用于图文转文本等应用场景。

文本生成图像英语

Vilt Finetuned 100

基于ViLT-B32-MLM模型在VQA数据集上微调的视觉语言模型

文本生成图像

TEMPURA Qwen2.5 VL 3B S1

TEMPURA是一个结合因果推理与细粒度时间分割的视频时序理解框架，通过两阶段训练提升视频事件理解能力

视频生成文本

Qwen2.5 Vl 7b Cam Motion Preview

基于Qwen2.5-VL-7B-Instruct微调的摄像机运动分析模型，专注于视频中的摄像机运动分类和视频-文本检索任务

视频生成文本

Webssl Dino7b Full8b 518

基于80亿MetaCLIP数据训练的70亿参数视觉Transformer模型，采用DINOv2自监督学习框架，无需语言监督

Gemma 3 12b It Qat Int4 GGUF

Gemma 3是谷歌基于Gemini技术构建的轻量级开放模型系列，12B版本采用量化感知训练(QAT)技术，支持多模态输入和128K上下文窗口。

文本生成图像

UI TARS 1.5 7B 6bit

UI-TARS-1.5-7B-6bit 是一个基于 MLX 格式转换的视觉语言模型，支持图像理解和文本生成任务。

图像生成文本

Transformers 支持多种语言

Gemma 3 27b It Qat Unsloth Bnb 4bit

Gemma 3是Google推出的轻量级、最先进的多模态开源模型，能够处理文本和图像输入并生成文本输出。

图像生成文本

Gemma 3 27b It Qat GGUF

Gemma 3是Google基于Gemini技术构建的轻量级开放模型系列，支持多模态输入和文本输出，具有128K大上下文窗口和140+语言支持。

文本生成图像英语

Gemma 3 1b It Qat

Gemma 3是谷歌推出的轻量级多模态模型，能够处理文本和图像输入并生成文本输出。该模型具有128K大上下文窗口和超140种语言的多语言支持。

图像生成文本

Gemma 3 4b It Qat Unsloth Bnb 4bit

Gemma 3是谷歌推出的轻量级前沿开放模型系列，基于Gemini模型技术构建，支持多模态输入和文本输出。

图像生成文本

Gemma 3 12b It Qat Int4

Gemma 3是Google推出的轻量级开放模型系列，基于创建Gemini模型的研究和技术构建。12B版本是经过指令调优的多模态模型，支持文本和图像输入，生成文本输出。

图像生成文本

Gemma 3 27b It Qat

Gemma是Google推出的轻量级开放模型系列，基于Gemini模型技术构建。Gemma 3是多模态模型，支持文本和图像输入，生成文本输出，具有128K大上下文窗口和多语言能力。

图像生成文本

Gemma 3 12b It Qat Unsloth Bnb 4bit

Gemma 3是Google推出的轻量级、最先进的开放模型家族，基于与Gemini模型相同的研究和技术构建。支持多模态输入和文本输出。

图像生成文本

Gemma 3 12b It Qat

Gemma 3是谷歌推出的轻量级、最先进的多模态开源模型，能处理文本和图像输入并生成文本输出，适用于多种文本生成和图像理解任务。

图像生成文本

基于Salesforce/blip2-opt-2.7b微调的视觉语言模型，用于图像问答任务

文本生成图像

Blip Custom Captioning

BLIP是一个统一的视觉-语言预训练框架，擅长图像描述生成等视觉-语言任务

图像生成文本

Internvl3 8B 6bit

InternVL3-8B-6bit 是一个基于 MLX 格式转换的视觉语言模型，支持多语言图像文本到文本的任务。

图像生成文本

Transformers 其他

Gemma 3 12B It Qat GGUF

Gemma 3 12B IT是由谷歌开发的大语言模型，支持多模态输入和长上下文处理。

图像生成文本

lmstudio-community

Gemma 3 4B It Qat GGUF

Google出品的Gemma 3 4B IT模型，支持多模态输入和长上下文处理，适用于文本生成和图像理解任务。

图像生成文本

lmstudio-community

Kimi VL A3B Thinking 8bit

Kimi-VL-A3B-Thinking-8bit 是一个基于 MLX 格式转换的多模态视觉语言模型，支持图像文本到文本的生成任务。

图像生成文本

Transformers 其他

Kimi VL A3B Thinking 6bit

Kimi-VL-A3B-Thinking-6bit 是一个基于 MLX 格式转换的多语言视觉语言模型，支持图像文本到文本的任务。

图像生成文本

Transformers 其他

Gemma 3 27b It Qat Bf16

Gemma 3 27B IT QAT BF16 是由 Google 发布的 Gemma 系列模型的一个版本，经过量化感知训练（QAT）并转换为 BF16 格式，适用于 MLX 框架。

图像生成文本

Gemma 3 27b It Qat 6bit

这是一个基于Google Gemma 3 27B模型的量化版本，支持6位量化，适用于图像文本到文本的任务。

图像生成文本

Transformers 其他

Gemma 3 27b It Qat 3bit

该模型是从 google/gemma-3-27b-it-qat-q4_0-unquantized 转换为 MLX 格式的 3 位量化版本，适用于图像文本到文本任务。

图像生成文本

Transformers 其他

Gemma 3 27b It Qat 4bit

Gemma 3 27B IT QAT 4bit 是一个基于 Google 原始模型转换而来的 MLX 格式模型，支持图像文本到文本的任务。

图像生成文本

Transformers 其他

Mistral Small 3.1 24B Instruct 2503 Quantized.w8a8

这是一个经过INT8量化的Mistral-Small-3.1-24B-Instruct-2503模型，由Red Hat和Neural Magic优化，适用于快速响应和低延迟场景。

文本到文本

Safetensors 支持多种语言

Gemma 3 4b It Qat 4bit

Gemma 3 4B IT QAT 4bit 是一个经过量化感知训练（QAT）的4位量化大语言模型，基于Gemma 3架构，专为MLX框架优化。

图像生成文本

Transformers 其他

Gemma 3 27b It Qat Q4 0 Unquantized

Gemma 3是Google推出的轻量级、先进的多模态开放模型，基于与Gemini模型相同的研究和技术构建，支持文本和图像输入并生成文本输出。

文本生成图像

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24