多模态问答

# 多模态问答

Llava 1.5 7b Hf Q4 K M GGUF

该模型是基于llava-hf/llava-1.5-7b-hf转换的GGUF格式模型，支持图像文本生成任务。

图像生成文本英语

Docscopeocr 7B 050425 Exp

docscopeOCR-7B-050425-exp 是基于 Qwen/Qwen2.5-VL-7B-Instruct 微调的模型，专注于文档级 OCR、长上下文视觉语言理解和数学 LaTeX 格式的精确图像到文本转换。

图像生成文本

Transformers 支持多种语言

Videochat R1 7B Caption

VideoChat-R1_7B_caption 是一个基于 Qwen2-VL-7B-Instruct 的多模态视频文本生成模型，专注于视频内容理解和描述生成。

视频生成文本

Transformers 英语

ViCA-7B是一款专为室内视频环境中的视觉空间推理而微调的视觉语言模型，基于LLaVA-Video-7B-Qwen2架构构建，使用ViCA-322K数据集进行训练，强调结构化空间标注和基于指令的复杂推理任务。

视频生成文本

Transformers 英语

VL Rethinker 7B Mlx 4bit

VL-Rethinker-7B 4位MLX量化版是基于TIGER-Lab/VL-Rethinker-7B模型的量化版本，专为苹果设备优化，支持视觉问答任务。

文本生成图像英语

基于ViLT架构的视觉语言模型，专为GQA视觉推理任务微调

文本生成图像

VL Rethinker 7B 6bit

这是一个基于Qwen2.5-VL-7B-Instruct的多模态模型，支持视觉问答任务，已转换为MLX格式以便在Apple芯片上高效运行。

文本生成图像

Transformers 英语

VL Rethinker 7B 8bit

VL-Rethinker-7B-8bit 是一个基于 Qwen2.5-VL-7B-Instruct 的多模态模型，支持视觉问答任务。

文本生成图像

Transformers 英语

VL Rethinker 7B Fp16

该模型是基于Qwen2.5-VL-7B-Instruct转换而来的多模态视觉语言模型，支持视觉问答任务。

文本生成图像

Transformers 英语

VL Rethinker 72B 8bit

该模型是基于Qwen2.5-VL-7B-Instruct转换而来的多模态视觉语言模型，支持8位量化，适用于视觉问答任务。

文本生成图像

Transformers 英语

VL Rethinker 72B 4bit

VL-Rethinker-72B-4bit是一个基于Qwen2.5-VL-7B-Instruct的多模态模型，支持视觉问答任务，已转换为MLX格式以便在苹果设备上高效运行。

文本生成图像

Transformers 英语

Gemma 3 4b It Abliterated Q4 0 GGUF

该模型是mlabonne/gemma-3-4b-it-abliterated的GGUF格式转换版本，结合了x-ray_alpha的视觉组件，提供更流畅的多模态体验。

图像生成文本

LLaVAction是一个面向动作识别的多模态大语言模型评估与训练框架，基于Qwen2语言模型架构，支持第一人称视角视频理解。

视频生成文本

Transformers 英语

MLAdaptiveIntelligence

Tinyllava Video Qwen2.5 3B Group 16 512

TinyLLaVA-Video是基于Qwen2.5-3B和siglip-so400m-patch14-384构建的视频理解模型，采用分组重采样器处理视频帧

视频生成文本

Videochat Flash Qwen2 5 7B InternVideo2 1B

基于InternVideo2-1B和Qwen2.5-7B构建的多模态视频文本模型，每帧仅使用16个标记，支持长达10,000帧的输入序列。

文本生成视频

Transformers 英语

Asagi-8B是一个大规模的日语视觉与语言模型（VLM），基于广泛的日语数据集训练，整合了多样化的数据来源。

图像生成文本

Transformers 日语

Deepseer R1 Vision Distill Qwen 1.5B Google Vit Base Patch16 224

DeepSeer是基于DeepSeek-R1模型开发的视觉语言模型，支持思维链推理能力，通过对话模板训练视觉模型。

图像生成文本

mehmetkeremturkcan

Erax VL 7B V2.0 Preview I1 GGUF

这是对EraX-VL-7B-V2.0-Preview模型进行加权/重要性矩阵量化的结果，提供多种量化版本以适应不同需求

图像生成文本支持多种语言

Videochat Flash Qwen2 7B Res224

基于UMT-L和Qwen2-7B构建的多模态模型，支持长视频理解，每帧仅使用16个标记，上下文窗口扩展至128k。

视频生成文本

Transformers 英语

Videochat Flash Qwen2 5 2B Res448

VideoChat-Flash-2B是基于UMT-L（300M）和Qwen2.5-1.5B构建的多模态模型，支持视频文本转文本任务，仅使用每帧16个标记，并扩展上下文窗口至128k。

视频生成文本

Transformers 英语

Erax VL 7B V2.0 Preview

EraX-VL-7B-V2.0-Preview是一款强大的多模态模型，专为OCR和视觉问答设计，擅长处理越南语等多种语言，在医疗表格、发票等文档识别上表现突出。

图像生成文本

Transformers 支持多种语言

基于微软Phi-1.5架构的视觉语言模型，结合CLIP实现图像处理能力

图像生成文本

Transformers 支持多种语言

VideoRefer-7B是一个多模态大语言模型，专注于视频问答任务，能够理解和分析视频中的时空物体关系。

文本生成视频

Transformers 英语

LLaVA-SpaceSGG是基于LLaVA-v1.5-13b的视觉问答模型，专注于场景图生成任务，能够理解图像内容并生成结构化场景描述。

文本生成图像

Safetensors 英语

Longvu Qwen2 7B

LongVU是基于Qwen2-7B的多模态模型，专注于长视频语言理解任务，采用时空自适应压缩技术。

视频生成文本

基于InternVL-Chat-V1-5微调的多模态模型，在MMBench基准测试中表现优异

图像生成文本

Idefics3 8B Llama3

Idefics3是一个开源的多模态模型，能够处理任意序列的图像和文本输入并生成文本输出。它在OCR、文档理解和视觉推理方面有显著提升。

图像生成文本

Transformers 英语

Table Llava V1.5 7b

Table LLaVA 7B 是一款开源多模态聊天机器人，专为理解各类表格图像并完成多样化表格相关任务而设计。

图像生成文本

Transformers 英语

Idefics2 8b Chatty

Idefics2 是一个开放的多模态模型，能够接受任意序列的图像和文本输入并生成文本输出。该模型可以回答关于图像的问题、描述视觉内容、基于多张图像创作故事，或仅作为纯语言模型使用。

图像生成文本

Transformers 英语

Idefics2 是一个开源的多模态模型，能够接受任意序列的图像和文本输入并生成文本输出。它在 OCR、文档理解和视觉推理方面有显著提升。

图像生成文本

Transformers 英语

Idefics2 8b Base

Idefics2 是 Hugging Face 开发的开源多模态模型，能够处理图像和文本输入并生成文本输出，在 OCR、文档理解和视觉推理方面表现优异。

图像生成文本

Transformers 英语

Heron Chat Git Ja Stablelm Base 7b V1

一款能够就输入图像进行对话的视觉语言模型，支持日语交互

图像生成文本

Transformers 日语

Llava-Phi2是基于Phi2的多模态实现，结合了视觉和语言处理能力，适用于图像文本到文本的任务。

图像生成文本

Transformers 英语

猴模型是一种大型多模态模型，通过提升图像分辨率和改进文本标签方法，在多项视觉任务中表现优异。

图像生成文本

ChatTruth-7B是基于Qwen-VL架构优化的多语言视觉-语言模型，增强了大分辨率图像处理能力并引入还原模块降低计算开销

图像生成文本

Transformers 支持多种语言

Heron Chat Git Ja Stablelm Base 7b V0

Heron GIT Japanese StableLM Base 7B 是一个能够就输入图像进行对话的视觉语言模型。

图像生成文本

Transformers 日语

IDEFICS是一个开源的多模态模型，能够处理图像和文本输入并生成文本输出，是Deepmind Flamingo模型的开源复现版本。

图像生成文本

Transformers 英语

Instructblip Vicuna 13b

InstructBLIP是BLIP-2的视觉指令调优版本，基于Vicuna-13b语言模型，用于视觉语言任务。

图像生成文本

Transformers 英语

Instructblip Flan T5 Xxl

InstructBLIP是BLIP-2经过视觉指令调优的版本，能够根据图像和文本指令生成描述或回答

图像生成文本

Transformers 英语

Video Blip Flan T5 Xl Ego4d

VideoBLIP是BLIP-2的增强版本，能够处理视频数据，采用Flan T5-xl作为语言模型主干。

视频生成文本

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24