Moondream 2b 2025 04 14 4bit
Apache-2.0
Moondream是一款轻量级视觉语言模型,专为高效全平台运行而设计。
图像生成文本
Safetensors
M
moondream
6,037
38
Agentcpm GUI
Apache-2.0
AgentCPM-GUI是一款具备RFT增强推理能力的设备端图形界面代理,可操作中英文应用,基于80亿参数的MiniCPM-V构建。
图像生成文本
支持多种语言
A
openbmb
541
94
UI TARS 1.5 7B 4bit
Apache-2.0
UI-TARS-1.5-7B-4bit是一个多模态模型,专注于图像文本到文本的转换任务,支持英文语言。
图像生成文本
Transformers

支持多种语言
U
mlx-community
184
1
Gemma 3 12b It Qat 3bit
其他
这是一个基于 Google Gemma 3-12B 模型转换而来的 MLX 格式模型,支持图像文本到文本的任务。
图像生成文本
Transformers

其他
G
mlx-community
65
1
Videochat R1 Thinking 7B
Apache-2.0
VideoChat-R1-thinking_7B 是一个基于 Qwen2.5-VL-7B-Instruct 的多模态模型,专注于视频文本转文本任务。
视频生成文本
Transformers

英语
V
OpenGVLab
800
0
Jarvisvla Qwen2 VL 7B
MIT
专为《我的世界》设计的视觉-语言-动作模型,支持基于人类语言指令执行游戏内数千种技能
图像生成文本
Transformers

英语
J
CraftJarvis
163
8
Qwen2.5 VL 3B UI R1
MIT
UI-R1是通过强化学习增强GUI代理动作预测的视觉语言模型,基于Qwen2.5-VL-3B-Instruct构建。
文本生成图像
英语
Q
LZXzju
96
6
Vamba Qwen2 VL 7B
MIT
Vamba是一种混合Mamba-Transformer架构,通过交叉注意力层与Mamba-2模块实现高效的长视频理解。
视频生成文本
Transformers

V
TIGER-Lab
806
16
Videochatonline 4B
MIT
VideoChat-Online是一个基于Phi-3-vision-128k-instruct的在线视频理解模型,专注于视频文本转文本任务。
视频生成文本
Safetensors
V
MCG-NJU
61
0
Smolvlm2 500M Video Instruct Mlx
Apache-2.0
这是一个基于MLX格式的视频文本转文本模型,由HuggingFaceTB开发,支持英文语言处理。
图像生成文本
Transformers

英语
S
mlx-community
2,491
12
Ultravox V0 5 Llama 3 1 8b
MIT
Ultravox是一款基于Llama3.1-8B-Instruct和whisper-large-v3-turbo构建的多模态语音大语言模型,能够同时处理语音和文本输入。
文本生成音频
Transformers

支持多种语言
U
fixie-ai
17.86k
12
Fluxi AI Small Vision
Apache-2.0
Fluxi AI 是一款基于 Qwen2-VL-7B-Instruct 的多模态智能助手,具备文本、图像和视频处理能力,特别优化了葡萄牙语支持。
图像生成文本
Transformers

其他
F
JJhooww
25
2
Uground V1 7B
Apache-2.0
UGround是一款采用简单配方训练的强大GUI视觉定位模型,由OSU NLP Group与Orby AI合作完成。
图像生成文本
Transformers

英语
U
osunlp
2,053
12
Smolvlm Instruct
Apache-2.0
基于HuggingFaceTB/SmolVLM-Instruct微调的智能视觉语言模型,采用Unsloth和TRL库优化训练速度
文本生成图像
Transformers

英语
S
mjschock
18
2
Dallah Llama
Dallah是一款专为阿拉伯语设计的先进多模态大语言模型,特别注重理解与生成跨阿拉伯方言的内容。
文本生成图像
Safetensors
阿拉伯语
D
alielfilali01
17
0
Command132
MIT
由 OMEGA Labs 和 Bittensor 合作开发的 Any-to-Any 子网模型,支持多种任务转换
大型语言模型
其他
C
mrbeanlas
0
0
Mini Omni2
MIT
Mini-Omni2是一款全交互式多模态模型,能理解图像、音频和文本输入,并与用户进行端到端的语音对话。
多模态融合
M
gpt-omni
192
269
Sam2.1 Hiera Tiny
Apache-2.0
SAM 2是由FAIR研发的面向图像和视频可提示视觉分割的基础模型,支持通过提示进行高效分割。
图像分割
S
facebook
12.90k
9
Sam2.1 Hiera Small
Apache-2.0
SAM 2是FAIR研发的面向图像与视频可提示视觉分割的基础模型,支持通过提示进行高效分割。
图像分割
S
facebook
7,333
6
Sam2.1 Hiera Large
Apache-2.0
SAM 2是FAIR研发的面向图像与视频可提示视觉分割的基础模型,支持通过提示进行通用分割任务。
图像分割
S
facebook
203.27k
81
Llava Video 7B Qwen2
Apache-2.0
LLaVA-视频模型是基于Qwen2语言模型的7B参数多模态模型,专注于视频理解任务,支持64帧视频输入。
视频生成文本
Transformers

英语
L
lmms-lab
34.28k
91
Xgen Mm Phi3 Mini Instruct Interleave R V1.5
Apache-2.0
xGen-MM是Salesforce AI Research开发的一系列最新基础大型多模态模型(LMMs),在BLIP系列成功设计的基础上进行了改进,通过基础性增强确保了更强大和卓越的模型基础。
图像生成文本
英语
X
Salesforce
7,373
51
Sam2 Hiera Small
Apache-2.0
FAIR研发的基础模型,用于解决图像和视频中可提示视觉分割任务
图像分割
S
facebook
12.98k
13
Sam2 Hiera Tiny
Apache-2.0
SAM 2是FAIR研发的面向图像和视频可提示视觉分割的基础模型,支持通过提示进行高效分割。
图像分割
S
facebook
41.88k
20
Sam2 Hiera Large
Apache-2.0
FAIR研发的面向图像与视频可提示视觉分割的基础模型
图像分割
S
facebook
155.85k
68
Uground
UGround是通过简洁配方训练的强力GUI视觉定位模型,由俄亥俄州立大学NLP组与Orby AI合作完成。
图像生成文本
U
osunlp
208
23
Internvideo2 Chat 8B
MIT
InternVideo2-Chat-8B是一个结合大型语言模型(LLM)和视频BLIP的视频理解模型,通过渐进式学习方案构建,能够进行视频语义理解和人机交互。
视频生成文本
Transformers

英语
I
OpenGVLab
492
22
Llava MORE Llama 3 1 8B Finetuning
Apache-2.0
LLaVA-MORE是基于LLaVA架构的增强版本,集成了LLaMA 3.1作为语言模型,专注于图像到文本的任务。
图像生成文本
Transformers

L
aimagelab
215
9
Poppy Porpoise 0.72 L3 8B
其他
基于Llama 3 8B模型的AI角色扮演助手,专注于打造沉浸式叙事体验
大型语言模型
Transformers

P
Nitral-AI
41
32
Poppy Porpoise V0.7 L3 8B
其他
基于Llama 3 8B模型的AI角色扮演助手,专注于打造互动叙事体验
文本生成图像
Transformers

P
Nitral-AI
32
47
Instructblip Flan T5 Xl 8bit Nf4
MIT
InstructBLIP是基于BLIP-2的视觉指令调优版本,结合视觉和语言处理能力,能够根据图像和文本指令生成响应。
图像生成文本
Transformers

英语
I
benferns
20
0
Instructblip Flan T5 Xl 8bit Nf4
MIT
InstructBLIP是基于BLIP-2的视觉指令调优模型,使用Flan-T5-xl作为语言模型,能够根据图像和文本指令生成描述。
图像生成文本
Transformers

英语
I
Mediocreatmybest
22
0
Instructblip Flan T5 Xxl 8bit Nf4
MIT
InstructBLIP是BLIP-2的视觉指令调优版本,结合了视觉和语言模型,能够根据图像和文本指令生成描述或回答问题。
图像生成文本
Transformers

英语
I
Mediocreatmybest
22
1
Idefics 80b
其他
IDEFICS-9B是一个90亿参数的多模态模型,能够处理图像和文本输入并生成文本输出,是Deepmind Flamingo模型的开源复现版本。
图像生成文本
Transformers

英语
I
HuggingFaceM4
70
70
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文