动态分辨率处理
Internvl3 38B Instruct GGUF
Apache-2.0
InternVL3-38B-Instruct 是一个先进的多模态大语言模型(MLLM),展示了卓越的整体性能,具备强大的多模态感知和推理能力。
图像生成文本
Transformers
I
unsloth
1,236
2
Internvl3 1B Pretrained
其他
InternVL3-1B是OpenGVLab推出的先进多模态大语言模型,已完成原生多模态预训练但未进行后训练。
文本生成图像
Transformers
其他
I
OpenGVLab
18
2
Biqwen2 V0.1
Apache-2.0
BiQwen2是基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型,专注于高效视觉文档检索。
文本生成图像
英语
B
vidore
460
0
Qwen2.5 VL Instruct 3B Geo
Apache-2.0
Qwen2.5-VL是Qwen家族的最新视觉语言模型,专注于增强视觉理解和代理能力。
文本生成图像
Transformers
英语
Q
kxxinDave
29
2
Colqwen2.5 3b Multilingual V1.0 Merged
MIT
基于Qwen2.5-VL-3B-Instruct与ColBERT策略的多语言视觉检索模型,支持动态输入图像分辨率,生成ColBERT风格的多向量文本与图像表征。
文本生成图像
Transformers
支持多种语言
C
tsystems
70
0
Qwen2.5 VL 72B Instruct AWQ Fix
其他
Qwen2.5-VL 是 Qwen 家族的最新视觉语言模型,具备强大的视觉理解和代理能力,支持多格式视觉定位和结构化输出生成。
图像生成文本
Transformers
英语
Q
Benasd
94
1
Colqwen2.5 7b Multilingual V1.0
MIT
基于Qwen2.5-VL-7B-Instruct并采用ColBERT策略的多语言视觉检索模型,在Vidore基准测试中排名第一
文本生成图像
支持多种语言
C
Metric-AI
4,699
7
Colqwen2.5 3b Multilingual V1.0
MIT
基于Qwen2.5-VL-3B-Instruct并采用ColBERT策略的多语言视觉检索器,在Vidore基准测试中表现优异
文本生成图像
支持多种语言
C
Metric-AI
2,475
7
Qwen2.5 VL 72B Instruct Pointer AWQ
其他
Qwen2.5-VL是Qwen家族的最新视觉语言模型,具备增强的视觉理解、代理能力和结构化输出生成功能。
图像生成文本
Transformers
英语
Q
PointerHQ
5,592
8
Uground V1 72B Preview
其他
Qwen2-VL是Qwen-VL模型系列的最新迭代,具备全分辨率图像理解、超长视频解析和多语言图文识别能力。
图像生成文本
Transformers
英语
U
osunlp
21
2
Uground V1 7B
Apache-2.0
UGround是一款采用简单配方训练的强大GUI视觉定位模型,由OSU NLP Group与Orby AI合作完成。
图像生成文本
Transformers
英语
U
osunlp
2,053
12
Colqwen2 2b V1.0
基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型,能够生成多向量文本与图像表示
文本生成图像
支持多种语言
C
tsystems
700
1
Colqwen2 V1.0
Apache-2.0
ColQwen2是基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型,用于高效索引文档的视觉特征。
文本生成图像
英语
C
vidore
106.85k
86
Colqwen2 V0.1
Apache-2.0
基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型,能高效通过视觉特征索引文档
文本生成图像
Safetensors
英语
C
vidore
21.25k
170