C

Colpali V1.2

由 vidore 开发
ColPali是基于PaliGemma-3B与ColBERT策略的视觉语言模型,用于高效地从视觉特征中索引文档。
下载量 61.77k
发布时间 : 8/26/2024
模型介绍
内容详情
替代品

模型简介

ColPali是一种基于新型模型架构和训练策略的视觉语言模型(VLM),能够生成文本和图像的ColBERT风格多向量表示,用于高效文档检索。

模型特点

多向量表示
采用ColBERT策略生成文本标记与图像块之间的多向量表示,提升检索效率
迭代式构建
从SigLIP模型开始,通过微调创建BiSigLIP,再结合PaliGemma-3B构建BiPali,最终形成ColPali
多语言支持
虽然训练数据为英语,但具备对非英语语言的零样本泛化能力
优化训练策略
采用批次内负样本和困难负样本挖掘策略,延长预热步数以减少性能下降

模型能力

视觉特征索引
文档检索
多模态表示学习
跨模态检索

使用案例

文档检索
PDF文档检索
从PDF文档中检索与查询相关的页面
相比BiPali实现了性能的阶跃式提升
学术研究
学术文献检索
从学术文献中检索相关信息