C

Colqwen2 2b V1.0

由 tsystems 开发
基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型,能够生成多向量文本与图像表示
下载量 700
发布时间 : 12/24/2024
模型介绍
内容详情
替代品

模型简介

ColQwen是基于视觉语言模型的新型架构,通过视觉特征高效索引文档,支持动态分辨率图像输入并保持宽高比不变

模型特点

动态分辨率处理
支持动态分辨率图像输入且不调整尺寸,最大分辨率可生成1024个图像块
多向量表示
采用ColBERT策略生成文本和图像的多向量表示,提升检索效率
高效训练
使用LoRA适配器进行训练,优化器选用paged_adamw_8bit,在8xH100 GPU上分布式训练

模型能力

视觉文档检索
多模态嵌入
图像特征提取
文本特征提取

使用案例

文档检索
PDF文档检索
从大量PDF文档中快速检索相关内容
实验表明增加图像块数量能显著提升效果