M

Mme5 Mllama 11b Instruct

由 intfloat 开发
mmE5是基于Llama-3.2-11B-Vision训练的多模态多语言嵌入模型,通过高质量合成数据改进嵌入性能,在MMEB基准测试中达到最先进水平。
下载量 596
发布时间 : 2/13/2025
模型介绍
内容详情
替代品

模型简介

该模型专注于多模态(图像+文本)和多语言嵌入任务,能够将图像和文本映射到统一的嵌入空间,支持跨模态检索和相似度计算。

模型特点

多模态嵌入能力
能够同时处理图像和文本输入,将它们映射到统一的嵌入空间
多语言支持
支持8种语言的文本处理,包括英语、中文、阿拉伯语等
高质量合成数据训练
使用专门设计的合成数据进行训练,提高模型性能
最先进性能
在MMEB基准测试中达到最先进水平

模型能力

图像-文本相似度计算
跨模态检索
多语言文本嵌入
零样本图像分类

使用案例

跨模态检索
图像搜索
通过文本查询检索相关图像
示例中'一只猫和一只狗'的查询与图像匹配度达0.4219
文本搜索
通过图像检索相关文本描述
示例中图像与'一只猫和一只狗'的文本匹配度达0.4414
多语言应用
多语言图像标注
为图像生成多语言描述或标签