多模态输入
Qwen2.5 Omni 7B GGUF
其他
Qwen2.5-Omni-7B-GGUF 是基于 Qwen2.5-Omni-7B 模型的 GGUF 格式版本,支持多模态输入,包括文本、音频和图像。
大型语言模型
英语
Q
ggml-org
319
3
Qwen2.5 Omni 3B GGUF
其他
Qwen2.5-Omni-3B 是一个多模态模型,支持文本、音频和图像输入,但不支持视频输入和音频生成。
大型语言模型
英语
Q
ggml-org
126
1
DAM 3B Video
其他
DAM-3B-Video是一个30亿参数的视觉语言模型,能够根据用户指定的图像/视频区域生成精细化局部描述。
图像生成文本
英语
D
nvidia
426
42
Gemma 3 12b Pt Qat Q4 0 Gguf
Gemma 3是Google推出的轻量级开源多模态模型,支持文本与图像输入并生成文本输出,具有128K超长上下文窗口和140+语言支持。
图像生成文本
G
google
475
12
Ola Video
Apache-2.0
Ola-7B是由腾讯、清华大学和南洋理工大学联合开发的多模态语言模型,基于Qwen2.5架构,支持文本、图像、视频和音频输入,输出文本内容。
文本生成文本
支持多种语言
O
THUdyh
82
1
Stable Diffusion 3.5 Large Controlnet Canny
其他
适配稳定扩散3.5大模型的Canny边缘检测控制网络,用于精确控制图像生成过程
图像生成
英语
S
stabilityai
737
10
LTX Video
其他
首个基于DiT的视频生成模型,能够实时生成高质量视频,支持文本转视频和图像+文本转视频两种场景。
文本生成视频
英语
L
Lightricks
165.42k
1,174
3dtopia XL
Apache-2.0
3DTopia-XL是基于PrimX高效3D表征的扩散Transformer架构,能够快速生成高质量3D资产
3D视觉
3
FrozenBurning
129
45
Sam2 Hiera Base Plus
Apache-2.0
SAM 2是FAIR研发的面向图像和视频可提示视觉分割的基础模型,支持通过提示进行高效分割。
图像分割
S
facebook
18.17k
6
Diva Llama 3 V0 8b
DiVA Llama 3是一个端到端的语音助手模型,能够处理语音和文本输入,采用蒸馏损失进行训练。
文本生成音频
Transformers
D
WillHeld
2,596
34