O

Omniembed V0.1

由 Tevatron 开发
基于Qwen2.5-Omni-7B构建的多模态嵌入模型,支持跨语言文本、图像、音频和视频的统一嵌入表示
下载量 2,190
发布时间 : 4/12/2025
模型介绍
内容详情
替代品

模型简介

OmniEmbed是一个多模态嵌入模型,能够生成跨语言文本、图像、音频和视频的统一嵌入表示,为多样化应用提供高效的跨模态检索能力。

模型特点

多模态统一嵌入
支持文本、图像、音频和视频的统一嵌入表示,实现跨模态检索
跨语言能力
支持多语言文本检索,性能接近专业多语言检索模型
高性能检索
在多个基准测试中表现优异,与专业单模态模型相当
开源训练
训练数据和训练代码已在Tevatron完全开源

模型能力

文本检索
图像文档检索
视频检索
音频检索
多语言检索

使用案例

多媒体检索
视频检索
根据文本查询检索相关视频内容
在MSRVTT数据集上R@1达到51.3,优于CLIP基线
音频检索
根据文本描述检索相关音频片段
在AudioCaps数据集上R@1达到34.0,优于现有基线
文档检索
图像文档检索
从包含图像/图表的文档中检索相关信息
在VIDORE数据集上nDCG@5达到85.8
多语言检索
跨语言文本检索
在MIRACL数据集上nDCG@10达到69.1