多模态嵌入
Unime Phi3.5 V 4.2B
MIT
UniME 是一个基于多模态大模型的通用嵌入学习模型,专注于打破模态壁垒,实现跨模态检索和嵌入学习。
多模态对齐
Transformers
英语
U
DeepGlint-AI
54
4
So400m Long
Apache-2.0
基于SigLIP 2微调的视觉语言模型,最大文本长度从64提升至256标记
文本生成图像
Transformers
英语
S
fancyfeast
27
3
Omniembed V0.1
MIT
基于Qwen2.5-Omni-7B构建的多模态嵌入模型,支持跨语言文本、图像、音频和视频的统一嵌入表示
多模态融合
O
Tevatron
2,190
3
Nomic Embed Multimodal 3b
Nomic Embed Multimodal 3B是一款顶尖的多模态嵌入模型,专注于视觉文档检索任务,支持统一文本-图像编码,在Vidore-v2测试中达到58.8 NDCG@5的卓越性能。
文本生成图像
支持多种语言
N
nomic-ai
3,431
11
Colnomic Embed Multimodal 3b
ColNomic Embed多模态3B是一款30亿参数的多模态嵌入模型,专为视觉文档检索任务设计,支持多语言文本和图像的统一编码。
多模态融合
支持多种语言
C
nomic-ai
4,636
17
Finseer
首个专为金融时间序列预测设计的检索器,基于检索增强生成(RAG)框架
大型语言模型
Transformers
英语
F
TheFinAI
13
1
Nitibench Ccl Human Finetuned Bge M3
MIT
基于BAAI/bge-m3模型在泰语法律查询数据上微调的版本,支持稠密检索、词法匹配和多向量交互
文本嵌入
其他
N
VISAI-AI
51
1
Llave 7B
Apache-2.0
LLaVE-7B是基于LLaVA-OneVision-7B模型的70亿参数多模态嵌入模型,具备文本、图像、多图像和视频的嵌入表示能力。
多模态融合
Transformers
英语
L
zhibinlan
1,389
5
Llave 2B
Apache-2.0
LLaVE-2B是基于Aquila-VL-2B模型的20亿参数多模态嵌入模型,具有4K tokens的上下文窗口,支持文本、图像、多图像和视频的嵌入表示。
文本生成图像
Transformers
英语
L
zhibinlan
20.05k
45
Llave 0.5B
Apache-2.0
LLaVE是基于LLaVA-OneVision-0.5B模型的多模态嵌入模型,参数规模为0.5B,能够对文本、图像、多图像和视频进行嵌入。
多模态融合
Transformers
英语
L
zhibinlan
2,897
7
Vit Base Patch16 Siglip 512.webli
Apache-2.0
基于SigLIP架构的视觉Transformer模型,仅包含图像编码器部分,采用原始注意力池化机制
图像分类
Transformers
V
timm
702
0
Taxabind Vit B 16
MIT
TaxaBind 是一个包含六种模态的多模态嵌入空间模型,专注于生态应用,支持利用分类学文本类别对物种图像进行零样本分类。
多模态融合
T
MVRL
3,672
0
Dse Qwen2 2b Mrl V1
Apache-2.0
DSE-QWen2-2b-MRL-V1 是一个双编码器模型,专为将文档截图编码为密集向量以实现文档检索而设计。
多模态融合
支持多种语言
D
MrLight
4,447
56
Bge M3 Gguf
MIT
bge-m3嵌入模型的GGUF量化版本,适用于高效的文本嵌入任务
文本嵌入
B
lm-kit
2,885
10
E5 V
E5-V是基于多模态大语言模型的通用嵌入方法,能够处理文本和图像输入并生成统一的嵌入表示。
多模态对齐
Transformers
E
royokong
5,619
22
Nomic Embed Vision V1.5
Apache-2.0
高性能视觉嵌入模型,与nomic-embed-text-v1.5共享相同的嵌入空间,支持多模态应用
文本生成图像
Transformers
英语
N
nomic-ai
27.85k
161
Nomic Embed Vision V1
Apache-2.0
高性能视觉嵌入模型,与nomic-embed-text-v1共享相同的嵌入空间,支持多模态应用
文本生成图像
Transformers
英语
N
nomic-ai
2,032
22
Bge M3 Onnx
MIT
BGE-M3是一个支持稠密检索、词汇匹配和多向量交互的嵌入模型,已转换为ONNX格式以便兼容ONNX Runtime等框架。
文本嵌入
Transformers
B
aapot
292
29
Siglip Base Patch16 224
SigLIP是一种基于视觉-语言预训练的模型,适用于零样本图像分类任务。
文本生成图像
Transformers
S
Xenova
182
1
Clip Vit Base Patch16
OpenAI开源的CLIP模型,基于Vision Transformer架构,支持图像与文本的跨模态理解
文本生成图像
Transformers
C
Xenova
32.99k
9
Chinese Clip Vit Base Patch16
中文CLIP的基础版本,采用ViT-B/16作为图像编码器,RoBERTa-wwm-base作为文本编码器,在约2亿中文图文对的大规模数据集上训练。
文本生成图像
Transformers
C
OFA-Sys
49.02k
104