C

Colqwen2 V0.1

由 vidore 开发
基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型,能高效通过视觉特征索引文档
下载量 21.25k
发布时间 : 9/26/2024

模型简介

ColQwen2是一种创新的视觉语言模型,通过扩展Qwen2-VL-2B架构并采用ColBERT式多向量表示策略,实现了高效的视觉文档检索功能。

模型特点

动态图像分辨率支持
支持动态输入图像分辨率且不进行尺寸调整,最大分辨率设定为最多生成768个图像块
多向量表示
采用ColBERT式多向量表示策略,能同时生成文本与图像的多向量表示
高效检索
通过视觉特征高效索引文档,特别适合PDF类文档检索
LoRA适配
在语言模型的Transformer层及投影层上应用低秩适配器(LoRA),优化训练效率

模型能力

视觉文档检索
多模态表示学习
跨模态匹配
图像理解
文本理解

使用案例

文档检索
学术文献检索
通过视觉特征快速检索学术PDF文档中的相关内容
企业文档管理
高效索引和管理企业内部的PDF文档库
跨模态搜索
图文关联搜索
通过文本查询检索相关图像内容,或通过图像检索相关文本描述
AIbase
智启未来,您的人工智能解决方案智库
简体中文