R

Ret OpenCLIP ViT G 14

由 aimagelab 开发
ReT是一种支持多模态查询与文档检索的创新方法,通过整合视觉与文本主干网络不同层级的多元表征实现细粒度检索。
下载量 77
发布时间 : 3/25/2025

模型简介

ReT采用基于Transformer的循环单元和Sigmoid门控机制,支持图像与文本混合输入,用于视觉文档检索任务。

模型特点

多层级特征整合
不同于传统方法仅使用最后一层特征,ReT整合视觉与文本主干网络不同层级的多元表征
Sigmoid门控机制
受LSTM启发的门控机制,选择性调控跨层级与跨模态的信息流
混合模态处理
可独立处理图像、文本或混合模态的查询和文档输入

模型能力

多模态文档检索
图像-文本联合特征提取
细粒度相似度计算

使用案例

信息检索
视觉问答文档检索
根据问题文本和参考图像检索包含答案的相关文档
在定制版M2KR基准测试中验证效果
跨模态检索
使用文本查询检索相关图像文档,或使用图像查询检索相关文本文档
AIbase
智启未来,您的人工智能解决方案智库
简体中文