动态分辨率处理

# 动态分辨率处理

Internvl3 38B Instruct GGUF

InternVL3-38B-Instruct 是一个先进的多模态大语言模型（MLLM），展示了卓越的整体性能，具备强大的多模态感知和推理能力。

图像生成文本

Internvl3 1B Pretrained

InternVL3-1B是OpenGVLab推出的先进多模态大语言模型，已完成原生多模态预训练但未进行后训练。

文本生成图像

Transformers 其他

InternVL3-38B 是一款先进的多模态大语言模型，在多模态感知、推理等能力上表现卓越，相较于前代模型有显著提升，还拓展了工具使用、GUI 代理等多模态能力。

文本生成图像

Transformers 其他

BiQwen2是基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型，专注于高效视觉文档检索。

文本生成图像英语

Qwen2.5 VL Instruct 3B Geo

Qwen2.5-VL是Qwen家族的最新视觉语言模型，专注于增强视觉理解和代理能力。

文本生成图像

Transformers 英语

Colqwen2.5 3b Multilingual V1.0 Merged

基于Qwen2.5-VL-3B-Instruct与ColBERT策略的多语言视觉检索模型，支持动态输入图像分辨率，生成ColBERT风格的多向量文本与图像表征。

文本生成图像

Transformers 支持多种语言

Qwen2.5 VL 72B Instruct AWQ Fix

Qwen2.5-VL 是 Qwen 家族的最新视觉语言模型，具备强大的视觉理解和代理能力，支持多格式视觉定位和结构化输出生成。

图像生成文本

Transformers 英语

Colqwen2.5 7b Multilingual V1.0

基于Qwen2.5-VL-7B-Instruct并采用ColBERT策略的多语言视觉检索模型，在Vidore基准测试中排名第一

文本生成图像支持多种语言

Colqwen2.5 3b Multilingual V1.0

基于Qwen2.5-VL-3B-Instruct并采用ColBERT策略的多语言视觉检索器，在Vidore基准测试中表现优异

文本生成图像支持多种语言

Qwen2.5 VL 72B Instruct Pointer AWQ

Qwen2.5-VL是Qwen家族的最新视觉语言模型，具备增强的视觉理解、代理能力和结构化输出生成功能。

图像生成文本

Transformers 英语

Uground V1 72B Preview

Qwen2-VL是Qwen-VL模型系列的最新迭代，具备全分辨率图像理解、超长视频解析和多语言图文识别能力。

图像生成文本

Transformers 英语

UGround是一个强大的GUI视觉定位模型，采用简单的方法进行训练，由OSUNLP和Orby AI合作完成。

多模态融合

Transformers 英语

UGround是一款采用简单配方训练的强大GUI视觉定位模型，由OSU NLP Group与Orby AI合作完成。

图像生成文本

Transformers 英语

Colqwen2 2b V1.0

基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型，能够生成多向量文本与图像表示

文本生成图像支持多种语言

ColQwen2是基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型，用于高效索引文档的视觉特征。

文本生成图像英语

基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型，能高效通过视觉特征索引文档

文本生成图像

Safetensors 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24