视觉文档检索

# 视觉文档检索

基于Qwen2.5-Omni-7B构建的多模态嵌入模型，支持跨语言文本、图像、音频和视频的统一嵌入表示

多模态融合

BiQwen2是基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型，专注于高效视觉文档检索。

文本生成图像英语

Nomic Embed Multimodal 7b

70亿参数的多模态嵌入模型，专精于视觉文档检索任务，在Vidore-v2基准测试中表现卓越

文本生成图像支持多种语言

Nomic Embed Multimodal 3b

Nomic Embed Multimodal 3B是一款顶尖的多模态嵌入模型，专注于视觉文档检索任务，支持统一文本-图像编码，在Vidore-v2测试中达到58.8 NDCG@5的卓越性能。

文本生成图像支持多种语言

Colnomic Embed Multimodal 3b

ColNomic Embed多模态3B是一款30亿参数的多模态嵌入模型，专为视觉文档检索任务设计，支持多语言文本和图像的统一编码。

多模态融合支持多种语言

基于SmolVLM-Instruct-500M与ColBERT策略的视觉检索模型，能高效通过视觉特征索引文档

文本生成图像英语

ColQwen2是基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型，用于高效索引文档的视觉特征。

文本生成图像英语

Monoqwen2 VL V0.1

MonoQwen2-VL-v0.1 是一个基于 Qwen2-VL-2B 微调的多模态重排器，用于评估图像与查询的相关性。

图像生成文本

Dse Qwen2 2b Mrl V1

DSE-QWen2-2b-MRL-V1 是一个双编码器模型，专为将文档截图编码为密集向量以实现文档检索而设计。

多模态融合支持多种语言

ColPali是基于PaliGemma-3B与ColBERT策略的视觉语言模型，用于高效地从视觉特征中索引文档。

文本生成图像英语

ColPali是基于PaliGemma-3B与ColBERT策略的视觉检索模型，用于高效地从视觉特征中索引文档。

文本生成图像

Safetensors 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24