多模态编码器
Ace Gguf
Apache-2.0
ACE-Step-v1-3.5B是一个文本转音频模型,支持高质量音频生成,适用于音乐和声音效果创作。
音频生成
A
calcuis
1,332
12
Siglip2 So400m Patch16 Naflex
Apache-2.0
SigLIP 2 是基于 SigLIP 预训练目标的改进模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
159.81k
21
Siglip2 So400m Patch16 256
Apache-2.0
SigLIP 2 是基于 SigLIP 的改进模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
2,729
0
Siglip2 Giant Opt Patch16 384
Apache-2.0
SigLIP 2 是基于 SigLIP 预训练目标的改进模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
26.12k
14
Siglip2 Large Patch16 512
Apache-2.0
SigLIP 2 是基于 SigLIP 的改进模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
4,416
8
Siglip2 Large Patch16 256
Apache-2.0
SigLIP 2 是基于 SigLIP 改进的视觉语言模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
10.89k
3
Siglip2 Base Patch16 512
Apache-2.0
SigLIP 2 是一个视觉语言模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
28.01k
10
Siglip2 Base Patch16 256
Apache-2.0
SigLIP 2是一个多语言视觉语言编码器,改进了语义理解、定位和密集特征提取能力。
图像生成文本
Transformers
S
google
45.24k
4
Siglip2 Base Patch16 224
Apache-2.0
SigLIP 2是基于SigLIP改进的多语言视觉语言编码器,增强了语义理解、定位和密集特征提取能力。
图像生成文本
Transformers
S
google
44.75k
38
Siglip2 Base Patch32 256
Apache-2.0
SigLIP 2 是基于 SigLIP 的改进版本,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像
Transformers
S
google
9,419
4