多模态文档检索

# 多模态文档检索

Holo1-3B是基于Transformer架构的多模态模型，专注于视觉文档检索任务，在WebVoyager基准测试中表现出色，平衡了准确性和成本。

图像生成文本

Transformers 英语

Holo1-7B GGUF模型是Surfer-H系统的一部分，适用于视觉文档检索等多模态任务，特别擅长网页交互和网络监控，能以较低成本实现高准确性。

图像生成文本

Transformers 英语

Granite Vision 3.3 2b Embedding

基于granite-vision-3.3-2b构建的高效嵌入模型，专为多模态文档检索设计，可处理包含表格、图表、信息图和复杂布局的文档。

多模态融合

Transformers 英语

Colnomic Embed Multimodal 7b

ColNomic Embed Multimodal 7B是一款多向量最先进的多模态嵌入模型，擅长视觉文档检索任务，支持多语言和统一文本图像编码。

多模态融合支持多种语言

Ret OpenCLIP ViT G 14

ReT是一种支持多模态查询与文档检索的创新方法，通过整合视觉与文本主干网络不同层级的多元表征实现细粒度检索。

多模态融合

Ret OpenCLIP ViT H 14

ReT是一种支持多模态查询与文档检索的创新方法，通过整合视觉与文本骨干网络不同层级的多元表征实现细粒度检索。

多模态融合

Ret CLIP ViT L 14

ReT是一种支持多模态查询与文档检索的创新方法，通过融合视觉与文本骨干网络多层级表征实现细粒度检索。

多模态融合

Colqwen2.5 3b Multilingual V1.0

基于Qwen2.5-VL-3B-Instruct与ColBERT策略的多语言视觉检索模型，支持动态输入图像分辨率和多语言文档检索。

文本生成图像支持多种语言

Colqwen2.5 3b Multilingual V1.0 Merged

基于Qwen2.5-VL-3B-Instruct与ColBERT策略的多语言视觉检索模型，支持动态输入图像分辨率，生成ColBERT风格的多向量文本与图像表征。

文本生成图像

Transformers 支持多种语言

Colqwen2.5 7b Multilingual V1.0

基于Qwen2.5-VL-7B-Instruct并采用ColBERT策略的多语言视觉检索模型，在Vidore基准测试中排名第一

文本生成图像支持多种语言

Colqwen2.5 3b Multilingual V1.0

基于Qwen2.5-VL-3B-Instruct并采用ColBERT策略的多语言视觉检索器，在Vidore基准测试中表现优异

文本生成图像支持多种语言

Colqwen2.5 V0.1

基于Qwen2.5-VL-3B-Instruct与ColBERT策略的视觉检索模型，能够生成文本和图像的多向量表示，用于高效文档检索。

文本生成图像英语

Colqwen2 7b V1.0

基于Qwen2-VL-7B-Instruct并采用ColBERT策略的视觉检索模型，专注于高效视觉特征索引文档

文本生成图像支持多种语言

Colqwen2 2b V1.0

基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型，能够生成多向量文本与图像表示

文本生成图像支持多种语言

Colqwen2 7b V1.0

基于Qwen2-VL-7B-Instruct与ColBERT策略的视觉检索模型，支持多向量文本与图像表示

文本生成图像英语

Colpali V1.3 Hf

ColPali是一种基于PaliGemma-3B扩展的视觉语言模型，能高效通过视觉特征索引文档，生成ColBERT式多向量表示。

文本生成图像

Transformers 英语

VisRAG是基于视觉语言模型(VLM)的检索增强生成(RAG)系统，可直接将文档作为图像进行嵌入表征，避免传统文本解析导致的信息损耗。

文本生成图像

Safetensors 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24