多模态模型
Gemma 3 4b It Qat GGUF
Gemma 3是谷歌推出的轻量级先进开放模型系列,基于创建Gemini模型的相同研究和技术构建。
文本生成图像
英语
G
unsloth
2,629
2
Qwen2 VL 7B Captioner Relaxed GGUF
Apache-2.0
该模型是基于Qwen2-VL-7B-Captioner-Relaxed转换的GGUF格式版本,专为图像转文本任务优化,支持通过llama.cpp和Koboldcpp等工具运行。
图像生成文本
英语
Q
r3b31
321
1
Llm Jp Clip Vit Base Patch16
Apache-2.0
日语CLIP模型,基于OpenCLIP框架训练,支持零样本图像分类任务
文本生成图像
日语
L
llm-jp
40
1
Vit GPT2 Image Captioning
基于ViT-GPT2架构的图像描述生成模型,能够为输入的图像生成自然语言描述。
图像生成文本
Transformers
V
mo-thecreator
17
0
Vit GPT2 Image Captioning
基于ViT-GPT2架构的图像描述生成模型,能够为输入的图像生成自然语言描述。
图像生成文本
Transformers
V
motheecreator
149
0
Paligemma Longprompt V1 Safetensors
Gpl-3.0
实验性视觉模型,融合关键词标签与长文本描述生成图像提示词
图像生成文本
Transformers
P
mnemic
38
1
Paligemma 3b Mix 448 Ft TableDetection
基于google/paligemma-3b-mix-448微调的多模态表格检测模型,专用于识别图像中的表格区域
图像生成文本
Transformers
P
ucsahin
19
4
Paligemma Vqav2
该模型是基于google/paligemma-3b-pt-224在VQAv2数据集的一小部分上进行微调的版本,专注于视觉问答任务。
文本生成图像
Transformers
P
merve
168
13
Paligemma Rich Captions
Apache-2.0
基于PaliGemma-3b模型在DocCI数据集上微调的图像描述生成模型,能生成200-350字符的详细描述文本,减少幻觉现象
图像生成文本
Transformers
英语
P
gokaygokay
66
9
Chexagent 2 3b
CheXagent是一个专注于胸部X光解读的基础模型,旨在辅助医疗影像分析。
图像生成文本
Transformers
其他
C
StanfordAIMI
28.72k
4
Vit Base Patch16 224 Turkish Gpt2 Medium
Apache-2.0
这是一个基于ViT和土耳其语GPT-2的视觉编码器-解码器模型,用于生成土耳其语的图像描述。
图像生成文本
Transformers
其他
V
atasoglu
14
0
Vit Medium Patch16 Clip 224.tinyclip Yfcc15m
MIT
基于ViT架构的CLIP模型,用于零样本图像分类任务
图像分类
V
timm
144
0
Xrayclip Vit L 14 Laion2b S32b B82k
CheXagent是一个专门用于胸部X光解读的基础模型,能够自动分析和解释胸部X光图像。
图像生成文本
Transformers
X
StanfordAIMI
975
0
Siglip Large Patch16 384
Apache-2.0
SigLIP是基于WebLi数据集预训练的多模态模型,采用改进的Sigmoid损失函数,适用于零样本图像分类和图文检索任务。
图像生成文本
Transformers
S
google
245.21k
6
Siglip Large Patch16 256
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的sigmoid损失函数提升性能
图像生成文本
Transformers
S
google
24.13k
12
Siglip Base Patch16 512
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉-语言模型,采用改进的sigmoid损失函数,在图像分类和图文检索任务中表现优异。
文本生成图像
Transformers
S
google
237.79k
24
Chinese Clip Vit Large Patch14
中文CLIP模型,基于Vision Transformer架构,支持图像与文本的跨模态理解与生成。
文本生成图像
Transformers
C
Xenova
14
0
Chartllama 13b
Apache-2.0
ChartLlama是基于LLaVA-1.5架构的多模态模型,专注于图表理解和分析任务。
大型语言模型
Transformers
英语
C
listen2you002
144
19
Siglip Base Patch16 224
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的Sigmoid损失函数,优化了图像-文本匹配任务
图像生成文本
Transformers
S
google
250.28k
43
Blip Image Captioning Base Test Sagemaker Tops 3
Bsd-3-clause
该模型是基于Salesforce的BLIP图像描述生成基础模型在SageMaker平台上微调的版本,主要用于图像描述生成任务。
图像生成文本
Transformers
B
GHonem
13
0
Swin Aragpt2 Image Captioning V3
基于Swin Transformer和AraGPT2架构的图像描述生成模型,能够为输入的图像生成文本描述。
图像生成文本
Transformers
S
AsmaMassad
18
0
Saved Model Git Base
MIT
基于microsoft/git-base在图像文件夹数据集上微调的视觉语言模型,主要用于图像描述生成任务
图像生成文本
Transformers
其他
S
holipori
13
0
Blip2 Flan T5 Xl Sharded
MIT
这是BLIP-2模型的分片版本,采用Flan T5-xl实现图像到文本任务,如图像描述和视觉问答。
图像生成文本
Transformers
英语
B
ethzanalytics
71
6
Image Caption
Apache-2.0
基于VisionEncoderDecoder架构的图像描述生成模型,能够将输入图像转换为自然语言描述。
图像生成文本
Transformers
I
jaimin
14
2
Clip Vit Large Patch14 Ko
MIT
基于知识蒸馏训练的韩语CLIP模型,支持韩语和英语的多模态理解
文本生成图像
Transformers
韩语
C
Bingsu
4,537
15
Layoutlmv3 Finetuned Wildreceipt
基于LayoutLMv3-base模型在WildReceipt收据数据集上微调的版本,用于收据关键信息提取任务
文字识别
Transformers
L
Theivaprakasham
118
3
Vitgpt2 Vizwiz
基于ViT-GPT2架构的视觉-语言模型,用于图像转文本任务
图像生成文本
Transformers
V
gagan3012
24
1