C

Colqwen2.5 V0.1

由 vidore 开发
基于Qwen2.5-VL-3B-Instruct与ColBERT策略的视觉检索模型,能够生成文本和图像的多向量表示,用于高效文档检索。
下载量 985
发布时间 : 1/30/2025
模型介绍
内容详情
替代品

模型简介

ColQwen2.5是一种视觉语言模型,通过视觉特征高效索引文档,支持动态输入图像分辨率,适用于文档检索任务。

模型特点

动态输入图像分辨率
支持不改变宽高比的动态输入图像分辨率,最大分辨率限制为最多生成768个图像块。
多向量表示
生成文本和图像的ColBERT风格多向量表示,提升检索效率。
高效训练
采用LoRA适配器和paged_adamw_8bit优化器,在8 GPU上数据并行训练,学习率5e-5,批次大小32。

模型能力

视觉文档检索
多向量表示生成
动态图像处理

使用案例

文档检索
学术文献检索
用于检索学术文献中的特定内容,如图表中的数据或特定文本段落。
实验表明,增加图像块数量能显著提升检索效果。
PDF文档检索
从PDF文档中检索特定信息,如表格、图表或文本内容。
在ViDoRe评估集上表现良好,与训练集无重叠文档。