Unime Phi3.5 V 4.2B
MIT
UniME 是一个基于多模态大模型的通用嵌入学习模型,专注于打破模态壁垒,实现跨模态检索和嵌入学习。
多模态对齐
Transformers

英语
U
DeepGlint-AI
54
4
So400m Long
Apache-2.0
基于SigLIP 2微调的视觉语言模型,最大文本长度从64提升至256标记
文本生成图像
Transformers

英语
S
fancyfeast
27
3
Omniembed V0.1
MIT
基于Qwen2.5-Omni-7B构建的多模态嵌入模型,支持跨语言文本、图像、音频和视频的统一嵌入表示
多模态融合
O
Tevatron
2,190
3
Nomic Embed Multimodal 3b
Nomic Embed Multimodal 3B是一款顶尖的多模态嵌入模型,专注于视觉文档检索任务,支持统一文本-图像编码,在Vidore-v2测试中达到58.8 NDCG@5的卓越性能。
文本生成图像
支持多种语言
N
nomic-ai
3,431
11
Colnomic Embed Multimodal 3b
ColNomic Embed多模态3B是一款30亿参数的多模态嵌入模型,专为视觉文档检索任务设计,支持多语言文本和图像的统一编码。
多模态融合
支持多种语言
C
nomic-ai
4,636
17
Finseer
首个专为金融时间序列预测设计的检索器,基于检索增强生成(RAG)框架
大型语言模型
Transformers

英语
F
TheFinAI
13
1
Nitibench Ccl Human Finetuned Bge M3
MIT
基于BAAI/bge-m3模型在泰语法律查询数据上微调的版本,支持稠密检索、词法匹配和多向量交互
文本嵌入
其他
N
VISAI-AI
51
1
Llave 7B
Apache-2.0
LLaVE-7B是基于LLaVA-OneVision-7B模型的70亿参数多模态嵌入模型,具备文本、图像、多图像和视频的嵌入表示能力。
多模态融合
Transformers

英语
L
zhibinlan
1,389
5
Llave 2B
Apache-2.0
LLaVE-2B是基于Aquila-VL-2B模型的20亿参数多模态嵌入模型,具有4K tokens的上下文窗口,支持文本、图像、多图像和视频的嵌入表示。
文本生成图像
Transformers

英语
L
zhibinlan
20.05k
45
Llave 0.5B
Apache-2.0
LLaVE是基于LLaVA-OneVision-0.5B模型的多模态嵌入模型,参数规模为0.5B,能够对文本、图像、多图像和视频进行嵌入。
多模态融合
Transformers

英语
L
zhibinlan
2,897
7
Vit Base Patch16 Siglip 512.webli
Apache-2.0
基于SigLIP架构的视觉Transformer模型,仅包含图像编码器部分,采用原始注意力池化机制
图像分类
Transformers

V
timm
702
0
Taxabind Vit B 16
MIT
TaxaBind 是一个包含六种模态的多模态嵌入空间模型,专注于生态应用,支持利用分类学文本类别对物种图像进行零样本分类。
多模态融合
T
MVRL
3,672
0
Dse Qwen2 2b Mrl V1
Apache-2.0
DSE-QWen2-2b-MRL-V1 是一个双编码器模型,专为将文档截图编码为密集向量以实现文档检索而设计。
多模态融合
支持多种语言
D
MrLight
4,447
56
Bge M3 Gguf
MIT
bge-m3嵌入模型的GGUF量化版本,适用于高效的文本嵌入任务
文本嵌入
B
lm-kit
2,885
10
E5 V
E5-V是基于多模态大语言模型的通用嵌入方法,能够处理文本和图像输入并生成统一的嵌入表示。
多模态对齐
Transformers

E
royokong
5,619
22
Nomic Embed Vision V1.5
Apache-2.0
高性能视觉嵌入模型,与nomic-embed-text-v1.5共享相同的嵌入空间,支持多模态应用
文本生成图像
Transformers

英语
N
nomic-ai
27.85k
161
Nomic Embed Vision V1
Apache-2.0
高性能视觉嵌入模型,与nomic-embed-text-v1共享相同的嵌入空间,支持多模态应用
文本生成图像
Transformers

英语
N
nomic-ai
2,032
22
Bge M3 Onnx
MIT
BGE-M3是一个支持稠密检索、词汇匹配和多向量交互的嵌入模型,已转换为ONNX格式以便兼容ONNX Runtime等框架。
文本嵌入
Transformers

B
aapot
292
29
Siglip Base Patch16 224
SigLIP是一种基于视觉-语言预训练的模型,适用于零样本图像分类任务。
文本生成图像
Transformers

S
Xenova
182
1
Clip Vit Base Patch16
OpenAI开源的CLIP模型,基于Vision Transformer架构,支持图像与文本的跨模态理解
文本生成图像
Transformers

C
Xenova
32.99k
9
Chinese Clip Vit Base Patch16
中文CLIP的基础版本,采用ViT-B/16作为图像编码器,RoBERTa-wwm-base作为文本编码器,在约2亿中文图文对的大规模数据集上训练。
文本生成图像
Transformers

C
OFA-Sys
49.02k
104
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文