Devstral Small Vision 2505 GGUF
Apache-2.0
基于Mistral Small模型的视觉编码器,支持图像文本生成任务,适配llama.cpp框架
图像生成文本
D
ngxson
777
20
Google.medgemma 4b It GGUF
MedGemma-4B-IT 是一个专注于医疗领域的图像文本生成模型,由Google开发。
图像生成文本
G
DevQuasar
6,609
1
T0 3B
Apache-2.0
T0++是基于T5架构的自然语言处理模型,通过多任务提示训练实现零样本任务泛化能力,在多种NLP任务上超越GPT-3且体积更小。
大型语言模型
Transformers

英语
T
bigscience
3,723
100
Internvl3 8B Bf16
其他
InternVL3-8B-bf16 是一个基于 MLX 格式转换的视觉语言模型,支持多语言图像文本到文本任务。
图像生成文本
Transformers

其他
I
mlx-community
96
1
Gemma 3 27B It Qat GGUF
Google推出的Gemma 3 27B IT模型,适用于多种文本生成和图像理解任务,支持128k令牌的上下文长度和多模态图像处理。
图像生成文本
G
lmstudio-community
41.35k
8
VL Rethinker 7B 8bit
Apache-2.0
VL-Rethinker-7B-8bit 是一个基于 Qwen2.5-VL-7B-Instruct 的多模态模型,支持视觉问答任务。
文本生成图像
Transformers

英语
V
mlx-community
21
0
VL Rethinker 7B Fp16
Apache-2.0
该模型是基于Qwen2.5-VL-7B-Instruct转换而来的多模态视觉语言模型,支持视觉问答任务。
文本生成图像
Transformers

英语
V
mlx-community
17
0
Gemma 3 27b It Uncensored
该模型是一个基于transformers库的模型,具体功能和用途需要进一步信息确认。
大型语言模型
Transformers

G
braindao
57
2
Vora 7B Instruct
VoRA是一个基于7B参数的视觉-语言模型,专注于图像文本到文本的转换任务。
图像生成文本
Transformers

V
Hon-Wong
154
12
Vora 7B Base
VoRA是一个基于7B参数的视觉语言模型,能够处理图像和文本输入,生成文本输出。
图像生成文本
Transformers

V
Hon-Wong
62
4
Gemma 3 27b Tools Q5 K M GGUF
该模型是基于Gemma-3-27b-tools转换的GGUF格式版本,适用于本地推理任务。
大型语言模型
G
attashe
101
1
Qwen2.5 VL 32B Instruct GGUF
Apache-2.0
Qwen2.5-VL-32B-Instruct 是一个多模态视觉语言模型,支持图像和文本的联合理解与生成任务。
图像生成文本
英语
Q
samgreen
25.59k
6
Gemma 3 4b It Uncensored DBL X Int2 Quantized
基于Transformers库的预训练模型,适用于自然语言处理任务
大型语言模型
Transformers

G
Kfjjdjdjdhdhd
39
1
Qwen2.5 VL 72B Instruct GGUF
其他
Qwen2.5-VL-72B-Instruct 是一个多模态视觉语言模型,支持图像和文本的交互式生成任务。
图像生成文本
英语
Q
samgreen
2,073
1
ARPG
MIT
ARPG是一种创新的自回归图像生成框架,能够通过类GPT因果架构实现BERT式掩码建模。
图像生成
A
hp-l33
68
2
Distill Any Depth Large Hf
MIT
Distill-Any-Depth是一种新的SOTA单目深度估计模型,采用知识蒸馏算法训练而成。
3D视觉
Transformers

D
xingyang1
2,322
2
Llama 3.1 8b DodoWild V2.01
基于Llama 3.1架构的8B参数语言模型,通过mergekit合并多个模型而成,具备文本生成能力
大型语言模型
Transformers

L
Nexesenex
58
2
Llama 3.1 8b Medusa V1.01
基于Llama 3.1架构的8B参数语言模型,通过mergekit合并多个专业模型而成,在文本生成任务中表现优异。
大型语言模型
Transformers

L
Nexesenex
95
3
Llama 3.1 8b Smarteaz V1.01
基于Llama 3.1架构的8B参数模型,通过mergekit合并多个Smarteaz系列模型而成,专注于文本生成任务
大型语言模型
Transformers

L
Nexesenex
85
3
Li 14b V0.4 Slerp0.1
这是一个使用SLERP方法合并的14B参数规模的大语言模型,由li-14b-v0.4和miscii-14b-0218两个基础模型合并而成。
大型语言模型
Transformers

L
wanlige
70
7
Qwen2.5 14B CIC ACLARC
Apache-2.0
基于Qwen 2.5 14B Instruct微调的引文意图分类模型,专门用于科学出版物中的引文意图分类。
文本分类
Transformers

英语
Q
sknow-lab
24
2
MM RLHF Reward 7B Llava Ov Qwen
MIT
这是一个图像文本到文本的转换模型,能够将输入的图像和文本转换为新的文本输出。
图像生成文本
Transformers

M
yifanzhang114
25
1
Deepseek R1 Distill Phi 3 Mini 4k Lorar8 Alpha16 50000samples
MIT
基于Deepseek-R1知识蒸馏的推理模型,支持链式思维(CoT)推理能力
大型语言模型
Safetensors
英语
D
GPD1
71
4
Llava Llama3
LLaVA-Llama3是基于Llama-3的多模态模型,支持图像与文本的联合处理。
图像生成文本
L
chatpig
360
1
Modernbert Large Nli
Apache-2.0
基于ModernBERT-large的多任务微调模型,专注于自然语言推理(NLI)任务,在零样本分类和推理任务中表现优异。
大型语言模型
Transformers

支持多种语言
M
p-christ
39
0
Mt0 Xxl Mt Q4 K M GGUF
Apache-2.0
该模型是从bigscience/mt0-xxl-mt通过llama.cpp转换为GGUF格式的多语言文本生成模型,支持多种语言任务。
大型语言模型
支持多种语言
M
Markobes
14
1
Eagle2 1B
鹰隼2号是一个高性能视觉语言模型家族,专注于数据策略和训练方案的透明性,旨在推动开源社区开发具有竞争力的视觉语言模型。
图像生成文本
Transformers

其他
E
nvidia
1,791
23
Llava SpaceSGG
Apache-2.0
LLaVA-SpaceSGG是基于LLaVA-v1.5-13b的视觉问答模型,专注于场景图生成任务,能够理解图像内容并生成结构化场景描述。
文本生成图像
Safetensors
英语
L
wumengyangok
36
0
Aim Xlarge
MIT
AiM是一个基于PyTorch的无条件图像生成模型,通过PytorchModelHubMixin集成推送到Hugging Face Hub。
图像生成
A
hp-l33
23
5
Florence 2 Flux Large
Apache-2.0
基于Microsoft Florence-2-large的视觉语言模型,擅长图像理解和文本生成任务
图像生成文本
Transformers

支持多种语言
F
gokaygokay
14.96k
45
Minicpm Llama3 V 2 5 GGUF
MiniCPM-Llama3-V-2_5是一个基于Llama3架构的多模态视觉问答模型,支持中英文交互。
文本生成图像
支持多种语言
M
gaianet
112
3
Depth Anything V2 Metric Indoor Large Hf
基于Depth Anything V2使用合成Hypersim数据集进行室内度量深度估计的微调版本,兼容transformers库。
3D视觉
Transformers

D
depth-anything
47.99k
9
Depth Anything V2 Metric Indoor Base Hf
基于Depth Anything V2模型,针对室内度量深度估计任务使用Hypersim合成数据集微调的版本
3D视觉
Transformers

D
depth-anything
9,056
1
Depth Anything V2 Metric Indoor Small Hf
基于Depth Anything V2针对室内度量深度估计任务进行微调的模型,使用合成数据集Hypersim训练,兼容transformers库。
3D视觉
Transformers

D
depth-anything
750
2
Depth Anything V2 Metric Outdoor Small Hf
基于Depth Anything V2的微调版本,专为户外场景度量深度估计设计,使用合成数据集Virtual KITTI进行训练。
3D视觉
Transformers

D
depth-anything
459
1
Sd3 Long Captioner V2
Apache-2.0
基于PaliGemma 224x224版本微调的图像到文本生成模型,专注于生成详细的艺术类图像描述
图像生成文本
Transformers

支持多种语言
S
gokaygokay
135
25
Latte 1
Apache-2.0
Latte是一个基于Transformer的潜在扩散模型,专注于文本生成视频任务,支持多种数据集预训练权重。
文本生成视频
L
maxin-cn
1,027
19
Flan T5 Tsa Prompt Xl
MIT
基于Flan-T5-xl微调的目标情感分析模型,支持英语文本的情感倾向判断(积极/消极/中立)
文本分类
Transformers

英语
F
nicolay-r
45
1
Chronos T5 Base
Apache-2.0
Chronos是基于语言模型架构的预训练时间序列预测模型家族,通过量化和缩放将时间序列转化为token序列进行训练。
气候模型
Transformers

C
autogluon
82.42k
5
Xgen Mm Phi3 Mini Base R V1
Apache-2.0
XGen-MM是Salesforce AI Research开发的最新多模态大模型系列,基于BLIP的成功设计,通过基础性增强实现了更强大、更优越的模型架构。
图像生成文本
Transformers

英语
X
Salesforce
240
18
- 1
- 2
- 3
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文