视觉语言模型

# 视觉语言模型

Qwen2.5 VL 7B Abliterated Caption It I1 GGUF

Qwen2.5-VL-7B-Abliterated-Caption-it的量化版本，支持多语言图像描述任务。

图像生成文本

Transformers 支持多种语言

Vigorl 7b Spatial

ViGoRL 是一个通过强化学习微调的视觉语言模型，用于将文本推理步骤与视觉坐标明确关联，实现精确的视觉推理和定位。

文本生成图像

GUI Actor 2B Qwen2 VL

GUI-Actor-2B是基于Qwen2-VL-2B的视觉语言模型，专为图形用户界面(GUI)定位任务设计，通过增加基于注意力的动作头并进行微调，在多个GUI定位基准测试中表现良好。

文本生成图像

Vjepa2 Vitl Fpc64 256

V-JEPA 2是Meta旗下FAIR团队开发的前沿视频理解模型，扩展了VJEPA的预训练目标，具备业界领先的视频理解能力。

VLM2Vec-V2 是一个用于大规模多模态嵌入任务的模型，通过训练视觉语言模型，为视频、图像和视觉文档等多模态数据提供更强大的嵌入能力。

多模态融合

Transformers 英语

Nora是一个开源的视觉-语言-动作模型，基于Qwen 2.5 VL - 3B训练，能够根据语言指令和相机图像生成机器人动作。

多模态融合

Bespoke MiniChart 7B

由Bespoke Labs开发的7B参数规模开源图表理解视觉语言模型，在图表问答任务上超越Gemini-1.5-Pro等闭源模型

文本生成图像英语

UI TARS 1.5 7B 6bit

UI-TARS-1.5-7B-6bit 是一个基于 MLX 格式转换的视觉语言模型，支持图像理解和文本生成任务。

图像生成文本

Transformers 支持多种语言

Olmocr 7B Thai V2

优化后的olmOCR模型，专注于提升泰语文本识别的准确性，支持多语言和表格格式。

Safetensors 其他

Instancecap Captioner

基于Qwen2.5-VL-7B-Instruct在instancevid数据集上微调的视觉语言模型，专注于实例级图像描述生成

图像生成文本

WebDreamer 是一个规划框架，能够为现实世界中的网页智能体任务实现高效且有效的规划。

图像生成文本

Transformers 英语

Gemma 3 27b It GGUF

Gemma 3 27B参数的GGUF量化版本，支持图像文本交互任务

文本生成图像

STEVE R1 7B SFT I1 GGUF

这是对Fanbin/STEVE-R1-7B-SFT模型进行的加权/矩阵量化版本，适用于资源受限环境。

文本生成图像英语

Gemma 3 27b Pt Qat Q4 0 Gguf

Gemma是谷歌推出的轻量级尖端开放模型家族，基于与Gemini模型相同的研究和技术构建。Gemma 3为多模态模型，可处理文本和图像输入并生成文本输出。

图像生成文本

Gemma 3 4b It GGUF

Gemma 3是谷歌推出的轻量级开源多模态模型，支持文本和图像输入，生成文本输出，具有128K上下文窗口和140+语言支持。

图像生成文本

Q-SiT Mini是一个轻量级的图像质量评估与对话模型，专注于图像质量分析和评分。

图像生成文本

Llama 3 2 11b Vision Electrical Components Instruct

Llama 3.2 11B Vision Instruct 是一个结合视觉和语言的多模态模型，支持图像转文本任务。

图像生成文本英语

Llava NeXT Video 7B Hf

LLaVA-NeXT-Video-7B-hf 是一个基于视频的多模态模型，能够处理视频和文本输入，生成文本输出。

视频生成文本

Safetensors 英语

Qwen Vl 2.5 3B Finetuned Cheque

一款视觉语言模型，专门用于从支票图像中提取结构化的金融信息，生成包含支票号码、收款人、金额和签发日期等关键信息的JSON格式输出。

图像生成文本

Transformers 英语

Internlm XComposer2 Enhanced

基于InternLM2开发的视觉语言大模型，具备卓越的图文理解与创作能力

文本生成图像

Libra Llava Med V1.5 Mistral 7b

LLaVA-Med是一个专为生物医学应用优化的开源大型视觉语言模型，基于LLaVA框架，通过课程学习增强，并针对开放式生物医学问答任务进行了微调。

图像生成文本

Florence 2 Base Castollux V0.4

基于microsoft/Florence-2-base微调的图像描述生成模型，专注于提升描述质量和格式

图像生成文本

Transformers 英语

PJMixers-Images

LLaVA-Llama3是基于Llama-3的多模态模型，支持图像与文本的联合处理。

图像生成文本

UI-TARS 是新一代原生图形用户界面（GUI）智能体模型，旨在通过类人的感知、推理和行动能力与图形用户界面无缝交互。

图像生成文本

Transformers 支持多种语言

UI-TARS 是新一代原生图形用户界面（GUI）代理模型，旨在通过类人的感知、推理和行动能力，无缝地与图形用户界面交互。

图像生成文本

Transformers 支持多种语言

UI-TARS是新一代原生图形用户界面（GUI）代理模型，旨在通过类人的感知、推理和行动能力与图形用户界面无缝交互。

图像生成文本

Transformers 支持多种语言

bytedance-research

Xgen Mm Vid Phi3 Mini R V1.5 32tokens 8frames

xGen-MM-Vid (BLIP-3-Video) 是一款高效紧凑的视觉语言模型，配备显式的时间编码器，专门用于理解视频内容。

视频生成文本

Safetensors 英语

Deqa Score Mix3

DeQA-Score-Mix3是基于MAGAer13/mplug-owl2-llama2-7b基础模型微调的无参考图像质量评估模型，在多个数据集上表现出色。

图像生成文本

Transformers 英语

Colqwen2 7b V1.0

基于Qwen2-VL-7B-Instruct与ColBERT策略的视觉检索模型，支持多向量文本与图像表示

文本生成图像英语

基于论文《任务偏好优化：通过视觉任务对齐改进多模态大语言模型》研发的多模态大语言模型

文本生成视频

Olympus是一个通用任务路由系统，专为计算机视觉任务设计，能够处理20种不同的视觉任务，并通过任务路由机制实现高效的多任务处理。

文本生成图像

Transformers 英语

Pixtral是一个基于Mistral架构的多模态模型，能够处理图像和文本输入，生成文本输出。

图像生成文本

Llava Critic 7b Hf

这是一个与transformers兼容的视觉语言模型，具备图像理解和文本生成能力

文本生成图像

BLIP Radiology Model

BLIP 是一个基于 Transformer 的图像描述生成模型，能够为输入图像生成自然语言描述。

图像生成文本

基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型，能高效通过视觉特征索引文档

文本生成图像

Safetensors 英语

迷你G是一个基于大规模合成数据集训练的多模态模型，支持文本和图像输入，拥有1M标记的上下文窗口。

大型语言模型

Transformers 支持多种语言

Cogflorence 2.2 Large

该模型是microsoft/Florence-2-large的微调版本，在Ejafa/ye-pop数据集的4万张图像子集上进行训练，标注文本由THUDM/cogvlm2-llama3-chat-19B生成，适用于图像转文本任务。

图像生成文本

Transformers 支持多种语言

Lumina Mgpt 7B 512

Lumina-mGPT是一个多模态自回归模型家族，擅长执行多种视觉与语言任务，特别是根据文本描述生成灵活逼真的图像。

文本生成图像

Cogflorence 2 Large Freeze

这是microsoft/Florence-2-large模型的微调版本，在Ejafa/ye-pop数据集的38,000张图像子集上训练，使用CogVLM2生成标注，专注于图像转文本任务。

图像生成文本

Transformers 支持多种语言

Tic CLIP Bestpool Sequential

TiC-CLIP是基于TiC-DataComp-Yearly数据集训练的视觉语言模型，采用持续学习策略保持模型与最新数据同步

文本生成图像

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24