多模态大模型

# 多模态大模型

本项目聚焦于可追溯证据增强的视觉定位推理，利用特定的基础模型和数据集开展研究，具有重要的学术和应用价值。

图像生成文本

INFRL Qwen2.5 VL 72B Preview Ggufs Fully Quantized

基于Qwen2.5-VL-72B-Instruct改进的视觉语言模型，在多个视觉推理基准测试中表现优异

文本生成图像英语

Heron NVILA Lite 33B

Heron-NVILA-Lite-33B 是一款基于 NVILA-Lite 架构、专为日语训练的视觉语言模型，支持日语和英语的多模态任务。

图像生成文本支持多种语言

Finetune VQA 1B

基于InternVL3-1B和Vintern-1B-v3_5微调的视觉问答模型，支持越南语，适用于图像内容理解和问答任务。

文本生成图像其他

Emova Qwen 2 5 3b

EMOVA是一种端到端全能模态大语言模型，支持视觉、听觉和语音功能，能够生成具有情感控制的文本和语音响应。

多模态融合

Transformers 支持多种语言

Internvl3 2B Hf

InternVL3-2B是基于Hugging Face Transformers库实现的多模态大语言模型，在图像、视频和文本处理等多模态任务上表现出色，支持多种输入方式和高效的批量推理。

图像生成文本

Transformers 其他

Internvl3 1B Hf

InternVL3 是一个先进的多模态大语言模型系列，展示了卓越的多模态感知和推理能力，支持图像、视频和文本输入。

图像生成文本

Transformers 其他

Internvl3 78B Pretrained

InternVL3-78B是OpenGVLab推出的先进多模态大语言模型，展现卓越的综合性能。相比前代InternVL 2.5，具备更强大的多模态感知与推理能力，并将能力拓展至工具使用、GUI代理、工业图像分析、3D视觉感知等新领域。

文本生成图像

Transformers 其他

Qari OCR 0.3 SNAPSHOT VL 2B Instruct Merged

专为阿拉伯文光学字符识别（OCR）设计的视觉语言模型，能直接识别图像中的阿拉伯文字。

图像生成文本

Qwen2.5 Omni 7B GPTQ 4bit

基于Qwen2.5-Omni-7B模型的4比特GPTQ量化版本，支持多语言和多模态任务。

多模态融合

Safetensors 支持多种语言

Internvl 2 5 HiCo R16

InternVideo2.5 是一款基于长且丰富的上下文（LRC）建模增强的视频多模态大语言模型（MLLM），构建于 InternVL2.5 之上。

文本生成视频

Transformers 英语

Internvideo2 5 Chat 8B

InternVideo2.5是一款基于长且丰富上下文(LRC)建模增强的视频多模态大语言模型，构建于InternVL2.5之上，通过提升感知细粒度细节和捕捉长时序结构的能力，显著改进了现有MLLM模型。

视频生成文本

Transformers 英语

Internlm Xcomposer2d5 Ol 7b

InternLM-XComposer2.5-OL是一个支持长时流式视频与音频交互的全方位多模态系统。

文本生成图像

Mplug Owl3 7B 241101

mPLUG-Owl3是一款先进的多模态大语言模型，专注于解决长图像序列理解问题，通过超注意力机制显著提升处理速度和序列长度支持。

文本生成图像英语

Llm Jp 3 Vila 14b

由日本国立情报学研究所开发的大型视觉语言模型，支持日语和英语，具备强大的图像理解和文本生成能力。

图像生成文本

Safetensors 日语

Pixtral 12B Captioner Relaxed

基于Pixtral-12B-2409多模态大语言模型进行指令微调的版本，能够为给定图像生成更丰富的细节描述

图像生成文本

Transformers 英语

mPLUG-DocOwl2是一款无需OCR的多页文档理解多模态大语言模型，通过高分辨率文档压缩器高效编码文档内容。

图像生成文本英语

ChartMoE是基于InternLM-XComposer2的多模态大语言模型，采用专家混合连接器，具备高级图表功能。

图像生成文本

袋鼠是一个专为长视频理解设计的强大多模态大语言模型，支持中英双语对话和长视频输入。

视频生成文本

Transformers 支持多种语言

Xgen Mm Phi3 Mini Base R V1

XGen-MM是Salesforce AI Research开发的最新多模态大模型系列，基于BLIP的成功设计，通过基础性增强实现了更强大、更优越的模型架构。

图像生成文本

Transformers 英语

Internlm Xcomposer2 Vl 1 8b

基于InternLM2的视觉-语言大模型，具备卓越的图文理解与创作能力

文本生成图像

Internlm Xcomposer2 Vl 7b

InternLM-XComposer2是基于InternLM2研发的视觉-语言大模型，具备卓越的图文理解与创作能力。

文本生成图像

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24