R

Ret CLIP ViT L 14

由 aimagelab 开发
ReT是一种支持多模态查询与文档检索的创新方法,通过融合视觉与文本骨干网络多层级表征实现细粒度检索。
下载量 523
发布时间 : 3/25/2025

模型简介

ReT采用基于Transformer的循环单元和sigmoid门控机制,选择性调控跨层级与跨模态信息流,可独立处理多模态查询与文档,生成用于相似度计算的潜在标记集。

模型特点

多层级特征融合
利用视觉与文本骨干网络的多层级表征,而非仅最终层特征
循环门控机制
受LSTM启发的sigmoid门控机制,动态调控跨模态信息流
多模态独立处理
可同时处理查询与文档中的图像和文本内容
细粒度相似度计算
生成潜在标记集支持细粒度的延迟交互式相似度匹配

模型能力

多模态文档检索
图像-文本联合表征
跨模态相似度计算
视觉-语言特征融合

使用案例

信息检索
跨模态知识检索
通过图文混合查询检索包含相关答案的文档
在定制版M2KR基准上验证有效性
问答系统
视觉问答支持
为VQA系统提供包含问题答案及对应图像的文档检索
支持OKVQA/E-VQA等视觉问答场景
AIbase
智启未来,您的人工智能解决方案智库
简体中文