多模态推理

# 多模态推理

Qwen3 4b Tcomanr Merge

基于多个Qwen 3微调模型合并而成的语言模型，融合代码和数学能力，提供强大的语言处理功能。

大型语言模型

Treevgr 7B CI GGUF

TreeVGR-7B-CI 的静态量化版本，适用于视觉问答、视觉定位和视觉推理等任务

文本生成图像

Transformers 英语

GLM 4.1V 9B Thinking AWQ

GLM-4.1V-9B-Thinking是一款强大的视觉语言模型（VLM），专注于多模态理解和推理，通过AWQ量化版本提供高效推理能力。

文本生成图像

GLM 4.1V 9B Thinking

GLM-4.1V-9B-Thinking是基于GLM-4-9B-0414基础模型的开源视觉语言模型，专注于提升复杂任务中的推理能力，支持64k上下文长度和4K图像分辨率。

图像生成文本

Transformers 支持多种语言

Kimi VL A3B Thinking 2506

Kimi-VL-A3B-Thinking-2506 是 Kimi-VL-A3B-Thinking 的升级版，在多模态推理、视觉感知与理解、视频场景处理等方面有显著提升，支持更高分辨率图像，且能在消耗更少令牌的情况下实现更智能的思考。

图像生成文本

Magistral Small 2506 Vision

Magistral-Small-2506-Vision 是一个基于 Mistral Small 3.1 进行 GRPO 训练的推理微调版本，具备视觉能力的实验性检查点。

图像生成文本

Safetensors 支持多种语言

RT DETR L Wireless Table Cell Det

RT-DETR-L_wireless_table_cell_det 是一个高精度的表格单元格检测模型，专为表格识别任务设计，能够准确定位和标记表格图像中的每个单元格区域。

文字识别支持多种语言

Internvl3 38B FP8 Dynamic

这是 OpenGVLab/InternVL3-38B 的 FP8 静态量化版本，针对使用 vLLM 进行高性能推理进行了优化，在视觉语言任务上实现了约 2 倍的加速，同时精度损失极小。

文本生成图像

Safetensors 支持多种语言

ConfidentialMind

Stockmark 2 VL 100B Beta

Stockmark-2-VL-100B-beta 是一款具有1000亿参数的日语专用视觉语言模型，具备思维链（CoT）推理能力，可用于文档阅读理解。

图像生成文本

Transformers 支持多种语言

Internvl3 14B Instruct GGUF

InternVL3-14B-Instruct 是一个先进的多模态大语言模型（MLLM），展示了卓越的多模态感知和推理能力，支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种任务。

图像生成文本

Internvl3 8B Instruct GGUF

InternVL3-8B-Instruct 是一个先进的多模态大语言模型（MLLM），展示了卓越的整体性能，具备强大的多模态感知和推理能力。

文本生成图像

InternVL3-8B 是一款先进的多模态大语言模型，具备卓越的多模态感知和推理能力，能处理图像、视频等多模态数据。

多模态对齐

Internvl3 1B GGUF

InternVL3-1B是一款先进的多模态大语言模型，在多模态感知、推理等能力上表现出色，还拓展了工具使用、GUI代理等多模态能力。

多模态融合

Visionreasoner 7B

VisionReasoner-7B是一个图像文本到文本的模型，采用解耦架构，由推理模型和分割模型组成，能解读用户意图并生成像素级掩码。

图像生成文本

Transformers 英语

Qwen2.5 VL 32B Instruct FP8 Dynamic

基于Qwen2.5-VL-32B-Instruct模型的FP8量化版本，支持视觉-文本输入和文本输出，适用于高效推理场景。

图像生成文本

Transformers 英语

Gemma 3 27b It FP8 Dynamic

这是google/gemma-3-27b-it的量化版本，采用FP8数据类型对权重进行量化，适用于视觉-文本输入并输出文本，可借助vLLM高效部署进行推理。

图像生成文本

Transformers 英语

Qwen3-8B 是 Qwen 系列的最新大语言模型，具备多种先进特性，支持多语言，在推理、指令跟随等方面表现出色，能为用户带来更智能、自然的交互体验。

大型语言模型

Bespoke MiniChart 7B

由Bespoke Labs开发的7B参数规模开源图表理解视觉语言模型，在图表问答任务上超越Gemini-1.5-Pro等闭源模型

文本生成图像英语

Skywork R1V2 38B

天工-R1V2-38B是当前最先进的开源多模态推理模型，在多项基准测试中表现卓越，具备强大的视觉推理与文本理解能力。

图像生成文本

ViCA2是一个多模态视觉语言模型，专注于视频理解和视觉空间认知任务。

视频生成文本

Transformers 英语

Vica2 Stage2 Onevision Ft

ViCA2是一个7B参数规模的多模态视觉语言模型，专注于视频理解和视觉空间认知任务。

视频生成文本

Transformers 英语

Internvl3 78B Hf

InternVL3 是一个先进的多模态大语言模型系列，具备强大的多模态感知和推理能力，支持图像、视频和文本输入。

图像生成文本

Transformers 其他

Internvl3 38B Hf

InternVL3-38B是一个先进的多模态大语言模型（MLLM），在多模态感知和推理能力上有显著提升，支持工具使用、GUI代理、工业图像分析、3D视觉感知等领域。

图像生成文本

Transformers 其他

Synthia S1 27b Bnb 4bit

Synthia-S1-27b是由Tesslate AI开发的高级推理AI模型，专注于逻辑推理、编码和角色扮演任务。

文本生成图像

Internvl3 14B Hf

InternVL3-14B是一个强大的多模态大语言模型，在多模态感知和推理能力上表现卓越，支持图像、文本、视频等多种输入。

图像生成文本

Transformers 其他

Spacethinker Qwen2.5VL 3B

SpaceThinker是一款通过测试时计算增强空间推理能力的多模态视觉语言模型，特别擅长定量空间推理和物体关系分析。

文本生成图像英语

Internvl3 9B AWQ

InternVL3-9B是InternVL3系列中的一款多模态大语言模型，具备卓越的多模态感知与推理能力，支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种应用场景。

文本生成图像

Transformers 其他

Internvl3 8B AWQ

InternVL3-8B是OpenGVLab推出的先进多模态大语言模型，具备强大的多模态感知与推理能力，支持工具调用、GUI智能体、工业图像分析、3D视觉感知等新领域。

图像生成文本

Transformers 其他

TBAC VLR1 3B Preview

由腾讯PCG基础算法中心微调的多模态语言模型，基于Qwen2.5-VL-3B-Instruct优化，在同规模模型中实现多项多模态推理基准的最先进性能

图像生成文本英语

Internvl3 9B Instruct

InternVL3-9B-Instruct 是 InternVL3 系列的监督微调版本，具备强大的多模态感知和推理能力，支持图像、文本、视频等多种模态处理。

图像生成文本

Transformers 其他

Internvl3 8B Instruct

InternVL3-8B-Instruct 是一个先进的多模态大语言模型（MLLM），展示了卓越的多模态感知和推理能力，支持工具使用、GUI代理、工业图像分析、3D视觉感知等多种功能。

图像生成文本

Transformers 其他

Mistral Small 3.1 24B Instruct 2503 Quantized.w4a16

这是一个经过INT4量化的Mistral-Small-3.1-24B-Instruct-2503模型，由Red Hat (Neural Magic)优化发布，适用于快速响应的对话代理和低延迟推理场景。

文本生成图像

Safetensors 支持多种语言

VL-Reasoner-7B 是一个基于 GRPO-SSR 技术训练的多模态推理模型，在多项多模态推理基准测试中表现卓越。

文本生成图像

Transformers 英语

InternVL3-38B 是一款先进的多模态大语言模型，在多模态感知、推理等能力上表现卓越，相较于前代模型有显著提升，还拓展了工具使用、GUI 代理等多模态能力。

文本生成图像

Transformers 其他

InternVL3-8B是一款先进的多模态大语言模型，具备卓越的多模态感知和推理能力，在工具使用、GUI代理、工业图像分析等多领域表现出色。

多模态融合

Transformers 其他

General Reasoner 14B Preview

基于Qwen2.5-14B基础模型和VisualWebInstruct-Verified数据集训练的多模态推理模型，支持英语任务处理。

大型语言模型

Transformers 英语

Spaceqwen2.5 VL 3B Instruct GGUF

SpaceQwen2.5-VL-3B-Instruct 是一个多模态视觉语言模型，专注于空间推理和具身智能任务。

文本生成图像英语

R01 Gemma 3 1b It

Gemma 3是谷歌推出的轻量级开源多模态模型，基于与Gemini相同技术构建，支持文本和图像输入并生成文本输出。

文本生成图像

Transformers 英语

DeepCogito推出的通过迭代蒸馏与放大（IDA）训练的强大混合推理模型，在编程、STEM、多语言和智能体应用场景中表现卓越。

大型语言模型

Qwen2.5 VL 7B Instruct Gptqmodel Int8

基于Qwen2.5-VL-7B-Instruct模型进行GPTQ-INT8量化的视觉语言模型

图像生成文本

Transformers 支持多种语言

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24