Wr30a Deep 7B 0711 I1 GGUF
Apache-2.0
这是prithivMLmods/WR30a-Deep-7B-0711模型的量化版本,支持多语言,适用于文本生成、图像字幕生成等多种任务。
图像生成文本
Transformers 支持多种语言

W
mradermacher
262
1
Qwen2.5 VL 7B Instruct Gemlite Ao A8w8
Apache-2.0
这是一个经过A8W8量化的多模态大语言模型,基于Qwen2.5-VL-7B-Instruct,支持视觉和语言任务。
图像生成文本
Transformers

Q
mobiuslabsgmbh
161
1
Devstral Small Vision 2505 GGUF
Apache-2.0
基于Mistral Small模型的视觉编码器,支持图像文本生成任务,适配llama.cpp框架
图像生成文本
D
ngxson
777
20
UI TARS 1.5 7B 6bit
Apache-2.0
UI-TARS-1.5-7B-6bit 是一个基于 MLX 格式转换的视觉语言模型,支持图像理解和文本生成任务。
图像生成文本
Transformers 支持多种语言

U
mlx-community
1,110
3
Blip Gqa Ft
MIT
基于Salesforce/blip2-opt-2.7b微调的视觉语言模型,用于图像问答任务
文本生成图像
Transformers

B
phucd
29
0
Blip Custom Captioning
Bsd-3-clause
BLIP是一个统一的视觉-语言预训练框架,擅长图像描述生成等视觉-语言任务
图像生成文本
B
hiteshsatwani
78
0
Kimi VL A3B Thinking 6bit
其他
Kimi-VL-A3B-Thinking-6bit 是一个基于 MLX 格式转换的多语言视觉语言模型,支持图像文本到文本的任务。
图像生成文本
Transformers 其他

K
mlx-community
135
0
Gemma 3 12b It Qat 3bit
其他
这是一个基于 Google Gemma 3-12B 模型转换而来的 MLX 格式模型,支持图像文本到文本的任务。
图像生成文本
Transformers 其他

G
mlx-community
65
1
Gemma 3 4b It Qat 4bit
其他
Gemma 3 4B IT QAT 4bit 是一个经过量化感知训练(QAT)的4位量化大语言模型,基于Gemma 3架构,专为MLX框架优化。
图像生成文本
Transformers 其他

G
mlx-community
607
1
My Model
MIT
GIT是一个基于Transformer的图像到文本生成模型,能够根据输入的图像生成描述性文本。
图像生成文本
PyTorch 支持多种语言
M
anoushhka
87
0
Florence 2 Base Gpt4 Captioner V1
MIT
基于Florence-2-base-ft微调的GPT4-O风格字幕生成器,用于生成图像描述
图像生成文本
Transformers 支持多种语言

F
Vimax97
224
0
Qwen2 VL 7B Captioner Relaxed GGUF
Apache-2.0
该模型是基于Qwen2-VL-7B-Captioner-Relaxed转换的GGUF格式版本,专为图像转文本任务优化,支持通过llama.cpp和Koboldcpp等工具运行。
图像生成文本 英语
Q
r3b31
321
1
Llama Joycaption Alpha Two Hf Llava FP8 Dynamic
MIT
这是对fancyfeast开发的Llama JoyCaption Alpha Two模型进行的FP8压缩版本,使用llm-compressor工具实现,并兼容vllm框架。
图像生成文本 英语
L
JKCHSTR
248
1
Blip Image Captioning Large
Bsd-3-clause
基于COCO数据集预训练的视觉语言模型,擅长生成精准的图像描述
图像生成文本
B
drgary
23
1
Florence 2 Base Castollux V0.4
基于microsoft/Florence-2-base微调的图像描述生成模型,专注于提升描述质量和格式
图像生成文本
Transformers 英语

F
PJMixers-Images
23
1
Molmo 7B D 0924 NF4
Apache-2.0
Molmo-7B-D-0924的4Bit量化版本,通过NF4量化策略降低显存占用,适用于显存受限环境。
图像生成文本
Transformers

M
Scoolar
1,259
1
Llava Llama3
LLaVA-Llama3是基于Llama-3的多模态模型,支持图像与文本的联合处理。
图像生成文本
L
chatpig
360
1
Qwen2 VL 7B Captioner Relaxed Q4 K M GGUF
Apache-2.0
这是一个基于Qwen2-VL-7B-Captioner-Relaxed模型转换的GGUF格式模型,专门用于图像转文本任务。
图像生成文本 英语
Q
alecccdd
88
1
Vitucano 1b5 V1
Apache-2.0
ViTucano是原生葡萄牙语预训练的视觉助手,整合了视觉理解与语言能力,适用于多模态任务。
图像生成文本
Transformers 其他

V
TucanoBR
37
2
Microsoft Git Base
MIT
GIT是一个基于Transformer的生成式图像转文本模型,能够将视觉内容转换为文本描述。
图像生成文本 支持多种语言
M
seckmaster
18
0
Pixtral 12b
Pixtral是一个基于Mistral架构的多模态模型,能够处理图像和文本输入,生成文本输出。
图像生成文本
Transformers

P
saujasv
2,168
0
BLIP Radiology Model
BLIP 是一个基于 Transformer 的图像描述生成模型,能够为输入图像生成自然语言描述。
图像生成文本
Transformers

B
daliavanilla
16
0
Vit GPT2 Image Captioning
基于ViT-GPT2架构的图像描述生成模型,能够为输入的图像生成自然语言描述。
图像生成文本
Transformers

V
mo-thecreator
17
0
Vit GPT2 Image Captioning
基于ViT-GPT2架构的图像描述生成模型,能够为输入的图像生成自然语言描述。
图像生成文本
Transformers

V
motheecreator
149
0
Vit GPT2 Image Captioning Model
基于ViT-GPT2架构的图像描述生成模型,能够将输入图像转换为描述性文本
图像生成文本
Transformers

V
motheecreator
142
0
Llama 3.2 11B Vision Instruct Nf4
基于meta-llama/Llama-3.2-11B-Vision-Instruct的4位量化版本,支持图像理解和文本生成任务
图像生成文本
Transformers

L
SeanScripts
658
12
Pixtral 12b Nf4
Apache-2.0
基于Mistral社区Pixtral-12B的4位量化版本,专注于图像文本到文本任务,支持中文描述生成
图像生成文本
Transformers

P
SeanScripts
236
20
Tvl Mini 0.1
Apache-2.0
这是基于俄语对Qwen2-VL-2B模型进行的LORA微调版本,支持多模态任务。
图像生成文本
Transformers 支持多种语言

T
2Vasabi
23
2
Qwen2 Vl Tiny Random
这是一个基于Qwen2-VL-7B-Instruct配置随机初始化的小型调试模型,用于视觉语言任务
图像生成文本
Transformers

Q
yujiepan
27
1
Moondream Caption
Apache-2.0
基于Moondream2的定制小型视觉模型,专为图像描述生成任务微调
图像生成文本
Transformers

M
wraps
108
9
Base ZhEn
该模型用于将图像内容转换为文本描述,适用于非商业用途。
文字识别
B
MixTex
50
0
Turkish LLaVA V0.1 Q4 K M GGUF
MIT
Turkish-LLaVA-v0.1-Q4_K_M-GGUF 是土耳其语的视觉语言模型,支持图像文本到文本的处理任务。
图像生成文本 其他
T
atasoglu
127
4
Peacock
其他
孔雀模型是基于InstructBLIP架构的阿拉伯语多模态大语言模型,其语言模型采用AraLLaMA。
图像生成文本
PyTorch 阿拉伯语
P
UBC-NLP
73
1
Idefics3 8B Llama3
Apache-2.0
Idefics3是一个开源的多模态模型,能够处理任意序列的图像和文本输入并生成文本输出。它在OCR、文档理解和视觉推理方面有显著提升。
图像生成文本
Transformers 英语

I
HuggingFaceM4
45.86k
277
Llama 3 EZO VLM 1
基于 Llama-3-8B-Instruct 的日语视觉语言模型,通过额外预训练和指令调优增强日语能力
图像生成文本 日语
L
AXCXEPT
19
7
Zcabnzh Bp
Bsd-3-clause
BLIP是一个统一的视觉语言预训练框架,擅长图像描述生成和视觉问答等任务,通过创新的数据过滤机制提升性能
图像生成文本
Transformers

Z
nanxiz
19
0
Florence 2 Large Ft
MIT
Florence-2是微软开发的先进视觉基础模型,采用基于提示的范式处理各类视觉与视觉-语言任务。
图像生成文本
Transformers

F
zhangfaen
14
0
Florence 2 SD3 Captioner
Apache-2.0
Florence-2-SD3-Captioner 是一个基于 Florence-2 架构的图像描述生成模型,专门用于生成高质量的图像描述文本。
图像生成文本
Transformers 支持多种语言

F
gokaygokay
80.06k
34
Florence 2 Large Ft
MIT
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理各类视觉与视觉-语言任务。
图像生成文本
Transformers

F
andito
93
4
Test Push
Apache-2.0
distilvit是一个基于VIT图像编码器和蒸馏版GPT-2文本解码器的图像转文本模型,能够生成图像的文本描述。
图像生成文本
Transformers

T
tarekziade
17
0
- 1
- 2
- 3
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98
智启未来,您的人工智能解决方案智库
简体中文