Qwen2.5 Omni 7B GGUF
其他
Qwen2.5-Omni-7B-GGUF 是基于 Qwen2.5-Omni-7B 模型的 GGUF 格式版本,支持多模态输入,包括文本、音频和图像。
大型语言模型
英语
Q
ggml-org
319
3
Qwen2.5 Omni 3B GGUF
其他
Qwen2.5-Omni-3B 是一个多模态模型,支持文本、音频和图像输入,但不支持视频输入和音频生成。
大型语言模型
英语
Q
ggml-org
126
1
DAM 3B Video
其他
DAM-3B-Video是一个30亿参数的视觉语言模型,能够根据用户指定的图像/视频区域生成精细化局部描述。
图像生成文本
英语
D
nvidia
426
42
Gemma 3 12b Pt Qat Q4 0 Gguf
Gemma 3是Google推出的轻量级开源多模态模型,支持文本与图像输入并生成文本输出,具有128K超长上下文窗口和140+语言支持。
图像生成文本
G
google
475
12
Ola Video
Apache-2.0
Ola-7B是由腾讯、清华大学和南洋理工大学联合开发的多模态语言模型,基于Qwen2.5架构,支持文本、图像、视频和音频输入,输出文本内容。
文本生成文本
支持多种语言
O
THUdyh
82
1
Stable Diffusion 3.5 Large Controlnet Canny
其他
适配稳定扩散3.5大模型的Canny边缘检测控制网络,用于精确控制图像生成过程
图像生成
英语
S
stabilityai
737
10
LTX Video
其他
首个基于DiT的视频生成模型,能够实时生成高质量视频,支持文本转视频和图像+文本转视频两种场景。
文本生成视频
英语
L
Lightricks
165.42k
1,174
3dtopia XL
Apache-2.0
3DTopia-XL是基于PrimX高效3D表征的扩散Transformer架构,能够快速生成高质量3D资产
3D视觉
3
FrozenBurning
129
45
Sam2 Hiera Base Plus
Apache-2.0
SAM 2是FAIR研发的面向图像和视频可提示视觉分割的基础模型,支持通过提示进行高效分割。
图像分割
S
facebook
18.17k
6
Diva Llama 3 V0 8b
DiVA Llama 3是一个端到端的语音助手模型,能够处理语音和文本输入,采用蒸馏损失进行训练。
文本生成音频
Transformers

D
WillHeld
2,596
34
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文