开源视觉检索模型colqwen2-7b-v1.0 - 高效完成视觉特征索引文档

首页

Colqwen2 7b V1.0

由 tsystems 开发

基于Qwen2-VL-7B-Instruct并采用ColBERT策略的视觉检索模型，专注于高效视觉特征索引文档

文本生成图像

Safetensors

支持多种语言#多模态文档检索 #ColBERT向量表示 #动态图像分辨率

下载量 172

发布时间 : 12/30/2024

模型简介

ColQwen是基于视觉语言模型的新型架构，能生成ColBERT风格的多向量文本和图像表示，用于高效文档检索

模型特点

动态图像分辨率处理

接受动态分辨率输入且不调整大小，保持原始宽高比，最多生成768个图像块

多向量表示

采用ColBERT风格的多向量文本和图像表示，提升检索效率

LoRA微调

使用低秩适配器(LoRA)进行高效微调，在语言模型Transformer层和投影层设置alpha=64和r=64

模型能力

视觉文档检索

多模态嵌入

跨模态匹配

使用案例

文档检索

PDF文档检索

从大量PDF文档中快速检索相关内容

实验表明增加图像块数量能显著提升效果

🚀 T-Systems ColQwen2-7B：基于Qwen2-VL-7B-Instruct和ColBERT策略的视觉检索器

ColQwen是一个基于视觉语言模型（VLMs）的新型模型架构和训练策略的模型，可根据文档的视觉特征对其进行高效索引。它是Qwen2-VL-2B的扩展版本，能够生成ColBERT风格的文本和图像多向量表示。该模型在论文ColPali: Efficient Document Retrieval with Vision Language Models中被提出，并首次在此仓库中发布。

此版本是基础版本，使用批量大小8x64进行了5个周期的训练，并更新了填充标记。

✨ 主要特性

基于新颖的模型架构和训练策略，能根据视觉特征高效索引文档。
作为Qwen2-VL-2B的扩展，可生成ColBERT风格的多向量表示。
输入支持动态图像分辨率，不改变图像宽高比，最大分辨率可创建最多768个图像块。

📦 安装指南

确保colpali-engine从源代码安装或版本高于0.3.4，transformers版本需大于4.46.1。

pip install git+https://github.com/illuin-tech/colpali

💻 使用示例

基础用法

import torch
from PIL import Image

from colpali_engine.models import ColQwen2, ColQwen2Processor

model = ColQwen2.from_pretrained(
        "tsystems/colqwen2-7b-v1.0",
        torch_dtype=torch.bfloat16,
        device_map="cuda:0",  # or "mps" if on Apple Silicon
    ).eval()
processor = ColQwen2Processor.from_pretrained("tsystems/colqwen2-7b-v1.0")

# Your inputs
images = [
    Image.new("RGB", (32, 32), color="white"),
    Image.new("RGB", (16, 16), color="black"),
]
queries = [
    "Is attention really all you need?",
    "What is the amount of bananas farmed in Salvador?",
]

# Process the inputs
batch_images = processor.process_images(images).to(model.device)
batch_queries = processor.process_queries(queries).to(model.device)

# Forward pass
with torch.no_grad():
    image_embeddings = model(**batch_images)
    query_embeddings = model(**batch_queries)

scores = processor.score_multi_vector(query_embeddings, image_embeddings)

🔧 技术细节

版本特性

该模型输入支持动态图像分辨率，不会像ColPali那样改变图像宽高比。最大分辨率设置为最多创建768个图像块。实验表明，增加图像块数量可显著提升性能，但会增加内存需求。此版本使用colpali-engine==0.3.4进行训练，数据与论文中描述的ColPali数据相同，此外还使用了ShareGPT4V (https://sharegpt4v.github.io/) 数据集进行微调。

模型训练参数

使用低秩适配器（LoRA）对语言模型的Transformer层以及最终随机初始化的投影层进行训练，参数设置为alpha=64和r=64，并使用paged_adamw_8bit优化器。在8xH100 GPU上通过分布式数据并行（accelerate）进行训练，学习率为2e-4，采用线性衰减，热身步骤为1%，每个设备的批量大小为64，数据格式为bfloat16。

📚 详细文档

局限性

适用范围：该模型主要聚焦于PDF类型文档和资源丰富的语言，可能限制其在其他文档类型或资源较少语言上的泛化能力。
适配性：该模型依赖于从ColBERT后期交互机制派生的多向量检索，可能需要一定的工程工作才能适配缺乏原生多向量支持的常用向量检索框架。

📄 许可证

ColQwen2的视觉语言骨干模型（Qwen2-VL）遵循apache2.0许可证，此微调适配器遵循CC BY NC 4.0许可证，因此目前该模型仅可用于研究目的。

引用

如果您在研究中使用了该组织的模型，请按以下格式引用原始论文：

@misc{faysse2024colpaliefficientdocumentretrieval,
  title={ColPali: Efficient Document Retrieval with Vision Language Models}, 
  author={Manuel Faysse and Hugues Sibille and Tony Wu and Bilel Omrani and Gautier Viaud and Céline Hudelot and Pierre Colombo},
  year={2024},
  eprint={2407.01449},
  archivePrefix={arXiv},
  primaryClass={cs.IR},
  url={https://arxiv.org/abs/2407.01449}, 
}

信息表格

属性	详情
模型类型	基于Qwen2-VL-7B-Instruct的视觉检索器，采用ColBERT策略
训练数据	vidore/colpali_train_set、tattrongvu/sharegpt4v_vqa_200k_batch1
基础模型	Qwen/Qwen2-VL-7B-Instruct
标签	vidore、multimodal-embedding
库名称	peft
任务类型	视觉文档检索
许可证	ColQwen2的视觉语言骨干模型（Qwen2-VL）遵循`apache2.0`许可证，此微调适配器遵循CC BY NC 4.0许可证