Openvision Vit So400m Patch14 384
Apache-2.0
OpenVision是一个完全开放、经济高效的高级视觉编码器家族,用于多模态学习。
多模态融合
O
UCSC-VLAA
238
0
Openvision Vit Tiny Patch8 224
Apache-2.0
OpenVision是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习。
多模态融合
O
UCSC-VLAA
123
0
Openvision Vit Tiny Patch16 384
Apache-2.0
OpenVision是一个全开放、高性价比的先进视觉编码器家族,专注于多模态学习。
图像特征提取
O
UCSC-VLAA
19
0
Unime LLaVA OneVision 7B
MIT
UniME是一个基于多模态大模型的通用嵌入学习框架,通过文本判别知识蒸馏和硬负样本增强的指令调优策略,显著提升了多模态嵌入能力。
多模态对齐
Transformers

英语
U
DeepGlint-AI
376
2
Unime LLaVA 1.6 7B
MIT
UniME是一个基于多模态大模型的通用嵌入学习模型,采用336×336图像分辨率训练,在MMEB排行榜上位列第一。
图像生成文本
Transformers

英语
U
DeepGlint-AI
188
3
So400m Long
Apache-2.0
基于SigLIP 2微调的视觉语言模型,最大文本长度从64提升至256标记
文本生成图像
Transformers

英语
S
fancyfeast
27
3
Omniembed V0.1
MIT
基于Qwen2.5-Omni-7B构建的多模态嵌入模型,支持跨语言文本、图像、音频和视频的统一嵌入表示
多模态融合
O
Tevatron
2,190
3
Mme5 Mllama 11b Instruct
MIT
mmE5是基于Llama-3.2-11B-Vision训练的多模态多语言嵌入模型,通过高质量合成数据改进嵌入性能,在MMEB基准测试中达到最先进水平。
多模态融合
Transformers

支持多种语言
M
intfloat
596
18
Conceptclip
MIT
ConceptCLIP是一个通过医学概念增强的大规模视觉语言预训练模型,适用于多种医学影像模态,能在多种医学影像任务中实现稳健性能。
图像生成文本
Transformers

英语
C
JerrryNie
836
1
Mexma Siglip
MIT
MEXMA-SigLIP 是一个结合了多语言文本编码器和图像编码器的高性能CLIP模型,支持80种语言。
文本生成图像
Safetensors
支持多种语言
M
visheratin
137
3
LLM2CLIP Openai L 14 224
Apache-2.0
LLM2CLIP是一种利用大型语言模型(LLM)释放CLIP潜力的创新方法,通过对比学习框架提升文本判别性,突破原始CLIP文本编码器的限制。
文本生成图像
Safetensors
L
microsoft
108
5
LLM2CLIP Llama 3 8B Instruct CC Finetuned
Apache-2.0
LLM2CLIP是一种创新方法,通过大语言模型增强CLIP的跨模态能力,显著提升视觉和文本表征的判别力。
多模态融合
L
microsoft
18.16k
35
LLM2CLIP Openai B 16
Apache-2.0
LLM2CLIP是一种利用大语言模型(LLM)扩展CLIP能力的创新方法,通过对比学习框架提升文本判别性,显著提升跨模态任务性能。
文本生成图像
Safetensors
L
microsoft
1,154
18
LLM2CLIP EVA02 L 14 336
Apache-2.0
LLM2CLIP是一种创新方法,通过大语言模型(LLM)增强CLIP的视觉表征能力,显著提升跨模态任务性能
文本生成图像
PyTorch
L
microsoft
75
60
RS M CLIP
MIT
面向遥感领域的多语言视觉-语言预训练模型,支持10种语言的图像-文本跨模态任务
图像生成文本
支持多种语言
R
joaodaniel
248
1
E5 V
E5-V是基于多模态大语言模型的通用嵌入方法,能够处理文本和图像输入并生成统一的嵌入表示。
多模态对齐
Transformers

E
royokong
5,619
22
Safeclip Vit L 14
Safe-CLIP 是基于 CLIP 模型的增强型视觉与语言模型,旨在降低 AI 应用中与 NSFW(不适合工作场所)内容相关的风险。
文本生成图像
Transformers

S
aimagelab
931
3
Video Llava
基于Vision Transformer架构的大规模视觉语言模型,支持图像与文本的跨模态理解
文本生成图像
V
AnasMohamed
194
0
Nomic Embed Vision V1.5
Apache-2.0
高性能视觉嵌入模型,与nomic-embed-text-v1.5共享相同的嵌入空间,支持多模态应用
文本生成图像
Transformers

英语
N
nomic-ai
27.85k
161
Nomic Embed Vision V1
Apache-2.0
高性能视觉嵌入模型,与nomic-embed-text-v1共享相同的嵌入空间,支持多模态应用
文本生成图像
Transformers

英语
N
nomic-ai
2,032
22
Clip ViT B 32 Vision
MIT
基于CLIP ViT-B/32架构的ONNX移植版本,适用于图像分类和相似性搜索任务。
图像分类
Transformers

C
Qdrant
10.01k
7
M3D CLIP
Apache-2.0
M3D-CLIP是专为3D医学影像设计的CLIP模型,通过对比损失实现视觉与语言的对齐。
多模态对齐
Transformers

M
GoodBaiBai88
2,962
9
Blair Roberta Base
MIT
BLaIR是基于亚马逊评论2023数据集预训练的语言模型,专注于推荐和检索场景,能够生成强大的商品文本表征并预测相关商品。
文本嵌入
Transformers

英语
B
hyp1231
415
3
Nllb Siglip Mrl Large
NLLB-SigLIP-MRL 是一个结合了NLLB模型的文本编码器和SigLIP模型的图像编码器的多语言视觉-语言模型,支持Flores-200的201种语言。
图像生成文本
N
visheratin
297
14
Nllb Siglip Mrl Base
结合NLLB文本编码器和SigLIP图像编码器的多语言视觉语言模型,支持201种语言和多种嵌入维度
图像生成文本
N
visheratin
352
9
Owlv2 Base Patch16
OWLv2是一个基于视觉语言预训练的模型,专注于对象检测和定位任务。
目标检测
Transformers

O
Xenova
17
0
Owlvit Tiny Non Contiguous Weight
MIT
OWL-ViT 是一个基于视觉Transformer的开放词汇目标检测模型,能够检测图像中未在训练集中出现的类别。
文本生成图像
Transformers

O
fxmarty
337
0
Internvl 14B 224px
MIT
InternVL-14B-224px 是一个14B参数量的视觉语言基础模型,支持多种视觉语言任务。
文本生成图像
Transformers

I
OpenGVLab
521
37
Languagebind Video Huge V1.5 FT
MIT
LanguageBind 是一种通过语言实现多模态语义对齐的预训练模型,能够将视频、音频、深度、热成像等多种模态与语言进行绑定,实现跨模态的理解和检索。
多模态对齐
Transformers

L
LanguageBind
2,711
4
Vilt Finetuned 200
Apache-2.0
基于ViLT架构的视觉语言模型,在特定任务上进行了微调
文本生成图像
Transformers

V
Atul8827
35
0
Languagebind Audio FT
MIT
LanguageBind是一种以语言为中心的多模态预训练方法,通过语言作为不同模态间的纽带实现语义对齐。
多模态对齐
Transformers

L
LanguageBind
12.59k
1
Languagebind Video Merge
MIT
LanguageBind是一种通过基于语言的语义对齐将视频-语言预训练扩展至N模态的多模态模型,获得了ICLR 2024的接收。
多模态对齐
Transformers

L
LanguageBind
10.96k
4
Nllb Clip Base Siglip
NLLB-CLIP-SigLIP 是一个结合了NLLB模型的文本编码器和SigLIP模型的图像编码器的多语言视觉语言模型,支持201种语言。
文本生成图像
N
visheratin
478
1
Nllb Clip Large Siglip
NLLB-CLIP-SigLIP是一个结合了NLLB模型的文本编码器和SigLIP模型的图像编码器的多语言视觉语言模型,支持201种语言。
文本生成图像
N
visheratin
384
5
Xclip Base Patch16 Zero Shot
MIT
X-CLIP是CLIP的极简扩展,用于通用视频-语言理解,通过对比学习训练视频和文本的匹配关系。
文本生成视频
Transformers

英语
X
aurelio-ai
22
1
Metaclip L14 400m
MetaCLIP是基于CommonCrawl数据训练的视觉-语言模型,用于构建图像-文本共享嵌入空间。
文本生成图像
Transformers

M
facebook
325
3
Metaclip L14 Fullcc2.5b
MetaCLIP是基于CommonCrawl(CC)25亿数据点训练的大规模视觉-语言模型,解密了CLIP的数据筛选方法
文本生成图像
Transformers

M
facebook
172
3
Metaclip B16 400m
MetaCLIP是基于CommonCrawl数据训练的视觉-语言模型,用于构建图像-文本共享嵌入空间
文本生成图像
Transformers

M
facebook
51
1
Metaclip B16 Fullcc2.5b
MetaCLIP是应用于CommonCrawl数据的CLIP框架实现,旨在揭示CLIP训练数据筛选方法
文本生成图像
Transformers

M
facebook
90.78k
9
Metaclip B32 Fullcc2.5b
MetaCLIP是基于CommonCrawl(CC)25亿数据点训练的视觉-语言模型,用于构建图像-文本共享嵌入空间。
文本生成图像
Transformers

M
facebook
413
7
- 1
- 2
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文