Holo1 3B GGUF
其他
Holo1-3B是基于Transformer架构的多模态模型,专注于视觉文档检索任务,在WebVoyager基准测试中表现出色,平衡了准确性和成本。
图像生成文本
Transformers 英语

H
Mungert
583
0
Holo1 7B GGUF
Apache-2.0
Holo1-7B GGUF模型是Surfer-H系统的一部分,适用于视觉文档检索等多模态任务,特别擅长网页交互和网络监控,能以较低成本实现高准确性。
图像生成文本
Transformers 英语

H
Mungert
663
0
Granite Vision 3.3 2b Embedding
Apache-2.0
基于granite-vision-3.3-2b构建的高效嵌入模型,专为多模态文档检索设计,可处理包含表格、图表、信息图和复杂布局的文档。
多模态融合
Transformers 英语

G
ibm-granite
205
4
Colnomic Embed Multimodal 7b
Apache-2.0
ColNomic Embed Multimodal 7B是一款多向量最先进的多模态嵌入模型,擅长视觉文档检索任务,支持多语言和统一文本图像编码。
多模态融合 支持多种语言
C
nomic-ai
7,909
45
Ret OpenCLIP ViT G 14
Apache-2.0
ReT是一种支持多模态查询与文档检索的创新方法,通过整合视觉与文本主干网络不同层级的多元表征实现细粒度检索。
多模态融合
Transformers

R
aimagelab
77
0
Ret OpenCLIP ViT H 14
Apache-2.0
ReT是一种支持多模态查询与文档检索的创新方法,通过整合视觉与文本骨干网络不同层级的多元表征实现细粒度检索。
多模态融合
Transformers

R
aimagelab
23
0
Ret CLIP ViT L 14
Apache-2.0
ReT是一种支持多模态查询与文档检索的创新方法,通过融合视觉与文本骨干网络多层级表征实现细粒度检索。
多模态融合
Transformers

R
aimagelab
523
0
Colqwen2.5 3b Multilingual V1.0
MIT
基于Qwen2.5-VL-3B-Instruct与ColBERT策略的多语言视觉检索模型,支持动态输入图像分辨率和多语言文档检索。
文本生成图像 支持多种语言
C
tsystems
13.29k
8
Colqwen2.5 3b Multilingual V1.0 Merged
MIT
基于Qwen2.5-VL-3B-Instruct与ColBERT策略的多语言视觉检索模型,支持动态输入图像分辨率,生成ColBERT风格的多向量文本与图像表征。
文本生成图像
Transformers 支持多种语言

C
tsystems
70
0
Colqwen2.5 7b Multilingual V1.0
MIT
基于Qwen2.5-VL-7B-Instruct并采用ColBERT策略的多语言视觉检索模型,在Vidore基准测试中排名第一
文本生成图像 支持多种语言
C
Metric-AI
4,699
7
Colqwen2.5 3b Multilingual V1.0
MIT
基于Qwen2.5-VL-3B-Instruct并采用ColBERT策略的多语言视觉检索器,在Vidore基准测试中表现优异
文本生成图像 支持多种语言
C
Metric-AI
2,475
7
Colqwen2.5 V0.1
MIT
基于Qwen2.5-VL-3B-Instruct与ColBERT策略的视觉检索模型,能够生成文本和图像的多向量表示,用于高效文档检索。
文本生成图像 英语
C
vidore
985
0
Colqwen2 7b V1.0
基于Qwen2-VL-7B-Instruct并采用ColBERT策略的视觉检索模型,专注于高效视觉特征索引文档
文本生成图像 支持多种语言
C
tsystems
172
8
Colqwen2 2b V1.0
基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型,能够生成多向量文本与图像表示
文本生成图像 支持多种语言
C
tsystems
700
1
Colqwen2 7b V1.0
基于Qwen2-VL-7B-Instruct与ColBERT策略的视觉检索模型,支持多向量文本与图像表示
文本生成图像 英语
C
yydxlv
25
1
Colpali V1.3 Hf
ColPali是一种基于PaliGemma-3B扩展的视觉语言模型,能高效通过视觉特征索引文档,生成ColBERT式多向量表示。
文本生成图像
Transformers 英语

C
vidore
790
25
Visrag Ret
Apache-2.0
VisRAG是基于视觉语言模型(VLM)的检索增强生成(RAG)系统,可直接将文档作为图像进行嵌入表征,避免传统文本解析导致的信息损耗。
文本生成图像
Safetensors 英语
V
openbmb
1,294
65
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文