图像描述生成
Devstral Small Vision 2505 GGUF
Apache-2.0
基于Mistral Small模型的视觉编码器,支持图像文本生成任务,适配llama.cpp框架
图像生成文本
D
ngxson
777
20
Blip Gqa Ft
MIT
基于Salesforce/blip2-opt-2.7b微调的视觉语言模型,用于图像问答任务
文本生成图像
Transformers
B
phucd
29
0
Blip Custom Captioning
Bsd-3-clause
BLIP是一个统一的视觉-语言预训练框架,擅长图像描述生成等视觉-语言任务
图像生成文本
B
hiteshsatwani
78
0
Gemma 3 12b It Qat 3bit
其他
这是一个基于 Google Gemma 3-12B 模型转换而来的 MLX 格式模型,支持图像文本到文本的任务。
图像生成文本
Transformers
其他
G
mlx-community
65
1
Gemma 3 4b It Qat 4bit
其他
Gemma 3 4B IT QAT 4bit 是一个经过量化感知训练(QAT)的4位量化大语言模型,基于Gemma 3架构,专为MLX框架优化。
图像生成文本
Transformers
其他
G
mlx-community
607
1
My Model
MIT
GIT是一个基于Transformer的图像到文本生成模型,能够根据输入的图像生成描述性文本。
图像生成文本
PyTorch
支持多种语言
M
anoushhka
87
0
Florence 2 Base Gpt4 Captioner V1
MIT
基于Florence-2-base-ft微调的GPT4-O风格字幕生成器,用于生成图像描述
图像生成文本
Transformers
支持多种语言
F
Vimax97
224
0
Qwen2 VL 7B Captioner Relaxed GGUF
Apache-2.0
该模型是基于Qwen2-VL-7B-Captioner-Relaxed转换的GGUF格式版本,专为图像转文本任务优化,支持通过llama.cpp和Koboldcpp等工具运行。
图像生成文本
英语
Q
r3b31
321
1
Llama Joycaption Alpha Two Hf Llava FP8 Dynamic
MIT
这是对fancyfeast开发的Llama JoyCaption Alpha Two模型进行的FP8压缩版本,使用llm-compressor工具实现,并兼容vllm框架。
图像生成文本
英语
L
JKCHSTR
248
1
Blip Image Captioning Large
Bsd-3-clause
基于COCO数据集预训练的视觉语言模型,擅长生成精准的图像描述
图像生成文本
B
drgary
23
1
Florence 2 Base Castollux V0.4
基于microsoft/Florence-2-base微调的图像描述生成模型,专注于提升描述质量和格式
图像生成文本
Transformers
英语
F
PJMixers-Images
23
1
Llava Llama3
LLaVA-Llama3是基于Llama-3的多模态模型,支持图像与文本的联合处理。
图像生成文本
L
chatpig
360
1
Qwen2 VL 7B Captioner Relaxed Q4 K M GGUF
Apache-2.0
这是一个基于Qwen2-VL-7B-Captioner-Relaxed模型转换的GGUF格式模型,专门用于图像转文本任务。
图像生成文本
英语
Q
alecccdd
88
1
Vitucano 1b5 V1
Apache-2.0
ViTucano是原生葡萄牙语预训练的视觉助手,整合了视觉理解与语言能力,适用于多模态任务。
图像生成文本
Transformers
其他
V
TucanoBR
37
2
Microsoft Git Base
MIT
GIT是一个基于Transformer的生成式图像转文本模型,能够将视觉内容转换为文本描述。
图像生成文本
支持多种语言
M
seckmaster
18
0
BLIP Radiology Model
BLIP 是一个基于 Transformer 的图像描述生成模型,能够为输入图像生成自然语言描述。
图像生成文本
Transformers
B
daliavanilla
16
0
Vit GPT2 Image Captioning
基于ViT-GPT2架构的图像描述生成模型,能够为输入的图像生成自然语言描述。
图像生成文本
Transformers
V
mo-thecreator
17
0
Vit GPT2 Image Captioning
基于ViT-GPT2架构的图像描述生成模型,能够为输入的图像生成自然语言描述。
图像生成文本
Transformers
V
motheecreator
149
0
Vit GPT2 Image Captioning Model
基于ViT-GPT2架构的图像描述生成模型,能够将输入图像转换为描述性文本
图像生成文本
Transformers
V
motheecreator
142
0
Llama 3.2 11B Vision Instruct Nf4
基于meta-llama/Llama-3.2-11B-Vision-Instruct的4位量化版本,支持图像理解和文本生成任务
图像生成文本
Transformers
L
SeanScripts
658
12
Pixtral 12b Nf4
Apache-2.0
基于Mistral社区Pixtral-12B的4位量化版本,专注于图像文本到文本任务,支持中文描述生成
图像生成文本
Transformers
P
SeanScripts
236
20
Tvl Mini 0.1
Apache-2.0
这是基于俄语对Qwen2-VL-2B模型进行的LORA微调版本,支持多模态任务。
图像生成文本
Transformers
支持多种语言
T
2Vasabi
23
2
Qwen2 Vl Tiny Random
这是一个基于Qwen2-VL-7B-Instruct配置随机初始化的小型调试模型,用于视觉语言任务
图像生成文本
Transformers
Q
yujiepan
27
1
Moondream Caption
Apache-2.0
基于Moondream2的定制小型视觉模型,专为图像描述生成任务微调
图像生成文本
Transformers
M
wraps
108
9
Base ZhEn
该模型用于将图像内容转换为文本描述,适用于非商业用途。
文字识别
B
MixTex
50
0
Peacock
其他
孔雀模型是基于InstructBLIP架构的阿拉伯语多模态大语言模型,其语言模型采用AraLLaMA。
图像生成文本
PyTorch
阿拉伯语
P
UBC-NLP
73
1
Idefics3 8B Llama3
Apache-2.0
Idefics3是一个开源的多模态模型,能够处理任意序列的图像和文本输入并生成文本输出。
图像生成文本
Transformers
英语
I
HuggingFaceM4
45.86k
277
Llama 3 EZO VLM 1
基于 Llama-3-8B-Instruct 的日语视觉语言模型,通过额外预训练和指令调优增强日语能力
图像生成文本
日语
L
AXCXEPT
19
7
Zcabnzh Bp
Bsd-3-clause
BLIP是一个统一的视觉语言预训练框架,擅长图像描述生成和视觉问答等任务,通过创新的数据过滤机制提升性能
图像生成文本
Transformers
Z
nanxiz
19
0
Florence 2 Large Ft
MIT
Florence-2是微软开发的先进视觉基础模型,采用基于提示的范式处理各类视觉与视觉-语言任务。
图像生成文本
Transformers
F
zhangfaen
14
0
Florence 2 SD3 Captioner
Apache-2.0
Florence-2-SD3-Captioner 是一个基于 Florence-2 架构的图像描述生成模型,专门用于生成高质量的图像描述文本。
图像生成文本
Transformers
支持多种语言
F
gokaygokay
80.06k
34
Florence 2 Large Ft
MIT
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理各类视觉与视觉-语言任务。
图像生成文本
Transformers
F
andito
93
4
Test Push
Apache-2.0
distilvit是一个基于VIT图像编码器和蒸馏版GPT-2文本解码器的图像转文本模型,能够生成图像的文本描述。
图像生成文本
Transformers
T
tarekziade
17
0
Florence 2 Base Ft
MIT
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉语言任务。
图像生成文本
Transformers
F
lodestones
14
0
Vit Base Patch16 224 Distilgpt2
Apache-2.0
DistilViT 是一个基于视觉Transformer(ViT)和蒸馏版GPT-2的图像描述生成模型,能够将图像转换为文本描述。
图像生成文本
Transformers
V
tarekziade
17
0
Convllava JP 1.3b 1280
ConvLLaVA-JP是一款支持高分辨率输入的日语视觉语言模型,能够就输入图像进行对话。
图像生成文本
Transformers
日语
C
toshi456
31
1
Image Captioning Vit Gpt2 Flick8k
Apache-2.0
该模型能够将输入的图像转换为描述性文本,适用于多种场景下的图像理解任务。
图像生成文本
Transformers
I
pltnhan311
18
0
Final Model
Apache-2.0
该模型是一个基于Apache-2.0许可证的图像转文本模型,能够将图像内容转换为文本描述。
文字识别
Transformers
F
goatrider
17
0
Paligemma Rich Captions
Apache-2.0
基于PaliGemma-3b模型在DocCI数据集上微调的图像描述生成模型,能生成200-350字符的详细描述文本,减少幻觉现象
图像生成文本
Transformers
英语
P
gokaygokay
66
9
Blip Image Captioning Base Bf16
MIT
该模型是Salesforce/blip-image-captioning-base的量化版本,通过降低浮点精度至bfloat16,内存占用减少50%,适用于图像到文本生成任务。
图像生成文本
Transformers
B
gospacedev
20
1