开源协议: mit
库名称: colpali
基础模型: vidore/ColSmolVLM-Instruct-500M
支持语言:
- 英语
技术标签:
- colsmolvlm
- vidore实验性项目
- vidore
管道标签: 视觉文档检索
ColSmolVLM-Instruct-500M:基于SmolVLM-Instruct-500M与ColBERT策略的视觉检索模型
本版本采用32批次大小训练3个周期
ColSmolVLM是一种基于视觉语言模型(VLMs)的新型架构和训练策略,能高效通过视觉特征索引文档。作为SmolVLM的扩展版本,它能生成文本和图像的ColBERT式多向量表示。该模型首次发表于论文ColPali:基于视觉语言模型的高效文档检索,并在此代码库中开源。

版本特性
本版本基于Colpali代码库的b983e40提交版本训练(主分支代码)。训练数据与论文描述的ColPali数据集一致。
模型训练
数据集
我们构建了包含127,460个查询-页面对的训练集,其中63%来自公开学术数据集,37%是由网络爬取的PDF文档经VLM模型(Claude-3 Sonnet)生成伪问题增强合成的数据。为确保评估纯净度,我们严格验证训练集与ViDoRe评估集无重叠文档。另取2%样本作为验证集用于超参数调优。
注:多语言数据可能存在于语言模型的预训练语料和多模态训练中。
参数配置
默认使用bfloat16
格式训练,在语言模型的Transformer层和随机初始化的投影层应用LoRA适配器(alpha=32
,r=32
),采用paged_adamw_8bit
优化器。训练环境为4GPU数据并行,学习率5e-4配合2.5%预热步数的线性衰减,批次大小为8。
使用指南
需安装0.3.5以上版本的colpali-engine
(当前需使用代码库主分支),transformers
版本需高于4.46.2。
pip install git+https://github.com/illuin-tech/colpali
import torch
from PIL import Image
from colpali_engine.models import ColIdefics3, ColIdefics3Processor
model = ColIdefics3.from_pretrained(
"vidore/colSmol-500M",
torch_dtype=torch.bfloat16,
device_map="cuda:0",
attn_implementation="flash_attention_2"
).eval()
processor = ColIdefics3Processor.from_pretrained("vidore/colSmol-500M")
images = [
Image.new("RGB", (32, 32), color="white"),
Image.new("RGB", (16, 16), color="black"),
]
queries = [
"注意力机制真的是万能的吗?",
"萨尔瓦多的香蕉种植量是多少?",
]
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)
with torch.no_grad():
image_embeddings = model(**batch_images)
query_embeddings = model(**batch_queries)
scores = processor.score_multi_vector(query_embeddings, image_embeddings)
局限性
- 适用范围:主要针对PDF类文档和高资源语言,对其他文档类型或低资源语言的泛化能力有限。
- 技术支持:依赖ColBERT的多向量检索机制,需额外适配不支持多向量的主流检索框架。
许可声明
ColQwen2的视觉语言主干模型(Qwen2-VL)采用apache2.0
协议,模型适配器部分采用MIT协议。
联系方式
- 曼纽尔·费斯:manuel.faysse@illuin.tech
- 雨果·西比尔:hugues.sibille@illuin.tech
- 托尼·吴:tony.wu@illuin.tech
引用规范
若在研究中使用本组织的任何数据集或模型,请按以下格式引用原始论文:
@misc{faysse2024colpaliefficientdocumentretrieval,
title={ColPali:基于视觉语言模型的高效文档检索},
author={曼纽尔·费斯 and 雨果·西比尔 and 托尼·吴 and 比莱尔·奥姆拉尼 and 高蒂尔·维奥 and 塞琳·于德洛 and 皮埃尔·科伦坡},
year={2024},
eprint={2407.01449},
archivePrefix={arXiv},
primaryClass={cs.IR},
url={https://arxiv.org/abs/2407.01449},
}