N

Nllb Siglip Mrl Base

由 visheratin 开发
结合NLLB文本编码器和SigLIP图像编码器的多语言视觉语言模型,支持201种语言和多种嵌入维度
下载量 352
发布时间 : 2/22/2024
模型介绍
内容详情
替代品

模型简介

该模型结合了NLLB模型的文本编码能力和SigLIP的图像编码能力,支持Flores-201的201种语言,并采用套娃表示学习技术生成多种维度的嵌入向量。

模型特点

多语言支持
支持Flores-201的201种语言,扩展了模型的多语言能力
可变嵌入维度
采用套娃表示学习技术,可生成32/64/128/256/512维度的嵌入向量
高性能检索
在XTD10和Crossmodal-3600数据集上设立了新的多语言图像文本检索SOTA

模型能力

多语言图像分类
跨模态检索
零样本学习
可变分辨率嵌入

使用案例

多语言内容理解
多语言图像分类
使用不同语言的文本标签对图像进行分类
跨模态检索
图像-文本检索
在多语言环境下进行图像和文本的相互检索
在XTD10和Crossmodal-3600数据集上达到SOTA性能