R

Ret OpenCLIP ViT H 14

由 aimagelab 开发
ReT是一种支持多模态查询与文档检索的创新方法,通过整合视觉与文本骨干网络不同层级的多元表征实现细粒度检索。
下载量 23
发布时间 : 3/25/2025

模型简介

ReT采用基于Transformer的循环单元和sigmoid门控机制,选择性调控跨层级与跨模态的信息流,支持处理多模态查询与文档,生成用于相似度计算的潜在标记集。

模型特点

循环增强架构
采用基于LSTM启发的sigmoid门控机制,整合视觉与文本网络的多层级特征
多模态混合处理
支持查询与文档中的图像和文本任意组合输入
细粒度相似度计算
生成潜在标记集支持延迟交互的细粒度匹配

模型能力

多模态文档检索
图文混合查询处理
跨模态特征融合

使用案例

信息检索
视觉问答文档检索
根据包含视觉问题的文本查询检索相关图文文档
在定制M2KR基准上评估(含OVEN/InfoSeek等数据集)
跨模态搜索
以图搜文
使用图像作为查询条件检索相关文档
AIbase
智启未来,您的人工智能解决方案智库
简体中文