C

Colpali

由 vidore 开发
ColPali是基于PaliGemma-3B与ColBERT策略的视觉检索模型,用于高效地从视觉特征索引文档。
下载量 12.88k
发布时间 : 6/25/2024
模型介绍
内容详情
替代品

模型简介

ColPali是一种视觉语言模型(VLM),能够生成ColBERT风格的多向量文本和图像表示,用于文档检索任务。

模型特点

多向量表示
采用ColBERT策略生成文本和图像的多向量表示,提高检索效率
视觉语言融合
结合SigLIP视觉模型和PaliGemma语言模型,实现跨模态理解
高效检索
通过延迟交互机制计算文本标记与图像块之间的交互作用,提升检索性能

模型能力

视觉文档检索
跨模态理解
多向量表示生成

使用案例

文档检索
学术文献检索
从PDF文档中检索相关信息
相比BiPali实现性能的阶跃式提升
企业文档管理
从大量文档中快速定位相关内容