colqwen2-2b-v1.0开源视觉检索模型 - 可生成多向量文本与图像表示

首页

Colqwen2 2b V1.0

由 tsystems 开发

基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型，能够生成多向量文本与图像表示

文本生成图像

Safetensors

支持多种语言#多模态文档检索 #ColBERT向量表示 #动态分辨率处理

下载量 700

发布时间 : 12/24/2024

模型简介

ColQwen是基于视觉语言模型的新型架构，通过视觉特征高效索引文档，支持动态分辨率图像输入并保持宽高比不变

模型特点

动态分辨率处理

支持动态分辨率图像输入且不调整尺寸，最大分辨率可生成1024个图像块

多向量表示

采用ColBERT策略生成文本和图像的多向量表示，提升检索效率

高效训练

使用LoRA适配器进行训练，优化器选用paged_adamw_8bit，在8xH100 GPU上分布式训练

模型能力

视觉文档检索

多模态嵌入

图像特征提取

文本特征提取

使用案例

文档检索

PDF文档检索

从大量PDF文档中快速检索相关内容

实验表明增加图像块数量能显著提升效果

🚀 ColQwen2-2B：基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索器

ColQwen是基于视觉语言模型（VLMs）的一种新型模型架构和训练策略，可根据文档的视觉特征对其进行高效索引。本模型是Qwen2-VL-2B的扩展版本，能够生成ColBERT风格的文本和图像多向量表示。它在论文ColPali: Efficient Document Retrieval with Vision Language Models中被提出，并首次在此仓库中发布。

本版本是未经训练的基础版本，以确保投影层初始化的确定性。

✨ 主要特性

动态图像分辨率：该模型接受动态图像分辨率输入，不会像ColPali那样调整图像大小或改变其纵横比。最大分辨率设置为最多生成1024个图像块。实验表明，增加图像块数量可显著提升性能，但会增加内存需求。
特定版本训练：本版本使用colpali-engine==0.3.4进行训练，数据与论文中描述的ColPali数据相同。

📦 安装指南

确保安装colpali-engine，可从源码安装或安装版本高于0.3.4的版本。同时，transformers版本需大于4.46.1。

pip install git+https://github.com/illuin-tech/colpali

💻 使用示例

基础用法

import torch
from PIL import Image

from colpali_engine.models import ColQwen2, ColQwen2Processor

model = ColQwen2.from_pretrained(
        "tsystems/colqwen2-2b-v1.0",
        torch_dtype=torch.bfloat16,
        device_map="cuda:0",  # or "mps" if on Apple Silicon
    ).eval()
processor = ColQwen2Processor.from_pretrained("tsystems/colqwen2-2b-v1.0")

# Your inputs
images = [
    Image.new("RGB", (32, 32), color="white"),
    Image.new("RGB", (16, 16), color="black"),
]
queries = [
    "Is attention really all you need?",
    "What is the amount of bananas farmed in Salvador?",
]

# Process the inputs
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)

# Forward pass
with torch.no_grad():
    image_embeddings = model(**batch_images)
    query_embeddings = model(**batch_queries)

scores = processor.score_multi_vector(query_embeddings, image_embeddings)

🔧 技术细节

模型训练参数

使用低秩适配器（LoRA）对模型进行训练，在语言模型的Transformer层以及最终随机初始化的投影层上设置alpha=128和r=128。使用paged_adamw_8bit优化器，在8xH100 GPU设置上进行分布式数据并行训练（通过accelerate）。学习率为2e-4，采用线性衰减，热身步骤为1%，每个设备的批量大小为128，数据格式为bfloat16。

📄 许可证

ColQwen2的视觉语言主干模型（Qwen2-VL）遵循apache2.0许可证。此微调适配器遵循CC BY NC 4.0许可证，因此目前该模型仅用于研究目的。

📚 详细文档

局限性

适用范围：该模型主要针对PDF类型文档和资源丰富的语言，可能在其他文档类型或资源较少的语言上泛化能力有限。
适配性：该模型依赖于从ColBERT后期交互机制派生的多向量检索，可能需要一定的工程工作才能适配缺乏原生多向量支持的常用向量检索框架。

引用

如果您在研究中使用了本组织的模型，请按以下方式引用原论文：

@misc{faysse2024colpaliefficientdocumentretrieval,
  title={ColPali: Efficient Document Retrieval with Vision Language Models}, 
  author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
  year={2024},
  eprint={2407.01449},
  archivePrefix={arXiv},
  primaryClass={cs.IR},
  url={https://arxiv.org/abs/2407.01449}, 
}

模型信息

属性	详情
模型类型	基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索器
训练数据	tattrongvu/vqa_de_en_batch1、vidore/colpali_train_set
基础模型	vidore/colqwen2-base
标签	vidore、multimodal_embedding
库名称	peft
任务类型	视觉文档检索