视觉问答

# 视觉问答

Treevgr 7B CI I1 GGUF

TreeVGR-7B-CI 是一个基于视觉的问答、视觉定位和视觉推理的模型量化版本，适用于多种视觉任务场景。

文本生成图像

Transformers 英语

SpaceOm-GGUF 是一款专注于视觉问答任务的多模态模型，在空间推理方面表现出色。

文本生成图像英语

Gemma 3 27b It Quantized.w4a16

这是google/gemma-3-27b-it的量化版本，支持视觉-文本输入和文本输出，通过权重量化和激活量化优化，可使用vLLM进行高效推理。

图像生成文本

Visionreasoner 7B

VisionReasoner-7B是一个图像文本到文本的模型，采用解耦架构，由推理模型和分割模型组成，能解读用户意图并生成像素级掩码。

图像生成文本

Transformers 英语

Gemma 3 12b It Qat Int4 GGUF

Gemma 3是谷歌基于Gemini技术构建的轻量级开放模型系列，12B版本采用量化感知训练(QAT)技术，支持多模态输入和128K上下文窗口。

文本生成图像

GIT是一个基于Transformer的图像到文本生成模型，能够根据输入的图像生成描述性文本。

图像生成文本

PyTorch 支持多种语言

Vora 7B Instruct

VoRA是一个基于7B参数的视觉-语言模型，专注于图像文本到文本的转换任务。

图像生成文本

Sapnous-6B是一款先进的视觉语言模型，通过强大的多模态能力提升对世界的感知和理解。

图像生成文本

Transformers 英语

Gemma 3 27b It GPTQ 4b 128g

该模型是对gemma-3-27b-it进行INT4量化的版本，通过减少每个参数的比特数来降低磁盘和GPU内存需求。

图像生成文本

Gemma 3 4b It Qat Q4 0 Gguf

Gemma 3是谷歌推出的轻量级尖端开源多模态模型，支持文本与图像输入并生成文本输出，具备128K上下文窗口和140+语言支持

图像生成文本

Gemma 3 12b It GGUF

Gemma 3是谷歌推出的轻量级开源多模态模型系列，基于与Gemini相同技术构建，支持文本和图像输入并生成文本输出

图像生成文本

Gemma是Google推出的轻量级前沿开放模型系列，基于与Gemini相同技术构建，支持多模态输入和文本输出。

图像生成文本

Smolvlm2 500M Video Instruct

轻量级多模态模型，专为分析视频内容设计，可处理视频、图像和文本输入以生成文本输出。

图像生成文本

Transformers 英语

Smolvlm2 256M Video Instruct

SmolVLM2-256M-Video是一款轻量级多模态模型，专为分析视频内容而设计，能够处理视频、图像和文本输入并生成文本输出。

图像生成文本

Transformers 英语

Smolvlm2 2.2B Instruct

SmolVLM2-2.2B 是一款轻量级多模态模型，专为分析视频内容而设计，可处理视频、图像和文本输入并生成文本输出。

图像生成文本

Transformers 英语

Qwen2.5 VL 7B Instruct Quantized.w8a8

Qwen2.5-VL-7B-Instruct的量化版本，支持视觉-文本输入和文本输出，通过INT8权重量化优化推理效率

图像生成文本

Transformers 英语

Qwen2.5 VL 7B Instruct FP8 Dynamic

Qwen2.5-VL-7B-Instruct的FP8量化版本，通过vLLM支持高效视觉-文本推理

文本生成图像

Transformers 英语

Qwen2.5 VL 3B Instruct FP8 Dynamic

Qwen2.5-VL-3B-Instruct的FP8量化版本，支持视觉-文本输入和文本输出，优化了推理效率。

文本生成图像

Transformers 英语

LlamaV-o1 是一款先进的多模态大语言模型，专为复杂的视觉推理任务而设计，通过课程学习技术优化，在多样化的基准测试中展现出卓越性能。

文本生成图像英语

Microsoft Git Base

GIT是一个基于Transformer的生成式图像转文本模型，能够将视觉内容转换为文本描述。

图像生成文本支持多种语言

Paligemma2 3b Pt 896

PaliGemma 2是一款多模态视觉语言模型，结合图像和文本输入生成文本输出，支持多语言，适用于多种视觉语言任务。

图像生成文本

Dermatech Qwen2 VL 2B

基于Qwen2-VL-2B-Instruct使用LoRA技术微调的皮肤科专业诊断模型，能分析皮肤状况图像并提供专业诊断描述。

图像生成文本

Florence 2 FT Lung Cancer Detection

基于Florence-2-base-ft微调的肺癌检测模型，通过肺部图像识别肺癌类型

文本生成图像

Transformers 英语

孔雀模型是基于InstructBLIP架构的阿拉伯语多模态大语言模型，其语言模型采用AraLLaMA。

图像生成文本

PyTorch 阿拉伯语

Qwen Vl Guidance

GUIChat是一个基于视觉问答(VQA)的多模态模型，能够理解图像内容并回答相关问题，特别针对GUI界面元素识别和交互进行了优化。

文本生成图像

Donut 是一个基于 Transformer 的图像转文本模型，能够从图像中提取和生成文本内容。

图像生成文本

Paligemma 3B Chat V0.2

基于google/paligemma-3b-mix-448微调的多模态对话模型，专为多轮对话场景优化

文本生成图像

Transformers 支持多种语言

Paligemma Vqav2

该模型是基于google/paligemma-3b-pt-224在VQAv2数据集的一小部分上进行微调的版本，专注于视觉问答任务。

文本生成图像

360VL是基于LLama3语言模型开发的多模态模型，具备强大的图像理解和双语对话能力。

文本生成图像

Transformers 支持多种语言

Llava Llama 3 8b

基于LLaVA-v1.5框架训练的大型多模态模型，采用80亿参数的Meta-Llama-3-8B-Instruct作为语言主干，并配备基于CLIP的视觉编码器。

图像生成文本

Llava NeXT Video 7B DPO

LLaVA-Next-Video 是一个开源的多模态对话模型，通过对大语言模型进行多模态指令跟随数据的微调训练而成，支持视频和文本的多模态交互。

文本生成视频

UForm-Gen2-dpo 是一个小型生成式视觉语言模型，通过直接偏好优化（DPO）在 VLFeedback 和 LLaVA-Human-Preference-10K 偏好数据集上针对图像描述生成和视觉问答任务进行对齐训练。

图像生成文本

Transformers 英语

MoAI是一个大型语言与视觉混合模型，能够处理图像和文本输入，生成文本输出。

图像生成文本

Llava Maid 7B DPO GGUF

LLaVA 是一个大型语言和视觉助手模型，能够处理图像和文本的多模态任务。

图像生成文本

Candle Llava V1.6 Mistral 7b

LLaVA 是一个视觉语言模型，能够理解和生成与图像相关的文本内容。

图像生成文本

Uform Gen2 Qwen 500m

UForm-Gen是一款小型生成式视觉语言模型，主要用于图像描述生成和视觉问答。

图像生成文本

Transformers 英语

Llava V1.6 34B Gguf

LLaVA 1.6 34B是一个开源的多模态聊天机器人模型，通过在多模态指令遵循数据上微调大语言模型开发而成。支持图像文本生成文本任务。

图像生成文本

Llava V1.6 Vicuna 13b

LLaVA 是一个开源的多模态聊天机器人，通过对多模态指令跟随数据进行大型语言模型微调训练而成。

图像生成文本

Llava V1.6 Mistral 7b

LLaVA 是一个开源的多模态聊天机器人，通过在多模态指令跟随数据上微调大语言模型训练而成。

文本生成图像

MiniCPM-V是一款高效轻量级多模态模型，专为终端设备部署优化，支持中英双语交互，性能超越同规模模型。

文本生成图像

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24