Gemma 3 4b It Qat GGUF
Gemma 3是谷歌推出的轻量级先进开放模型系列,基于创建Gemini模型的相同研究和技术构建。
文本生成图像
英语
G
unsloth
2,629
2
Qwen2 VL 7B Captioner Relaxed GGUF
Apache-2.0
该模型是基于Qwen2-VL-7B-Captioner-Relaxed转换的GGUF格式版本,专为图像转文本任务优化,支持通过llama.cpp和Koboldcpp等工具运行。
图像生成文本
英语
Q
r3b31
321
1
Llm Jp Clip Vit Base Patch16
Apache-2.0
日语CLIP模型,基于OpenCLIP框架训练,支持零样本图像分类任务
文本生成图像
日语
L
llm-jp
40
1
Vit GPT2 Image Captioning
基于ViT-GPT2架构的图像描述生成模型,能够为输入的图像生成自然语言描述。
图像生成文本
Transformers

V
mo-thecreator
17
0
Vit GPT2 Image Captioning
基于ViT-GPT2架构的图像描述生成模型,能够为输入的图像生成自然语言描述。
图像生成文本
Transformers

V
motheecreator
149
0
Paligemma Longprompt V1 Safetensors
Gpl-3.0
实验性视觉模型,融合关键词标签与长文本描述生成图像提示词
图像生成文本
Transformers

P
mnemic
38
1
Paligemma 3b Mix 448 Ft TableDetection
基于google/paligemma-3b-mix-448微调的多模态表格检测模型,专用于识别图像中的表格区域
图像生成文本
Transformers

P
ucsahin
19
4
Paligemma Vqav2
该模型是基于google/paligemma-3b-pt-224在VQAv2数据集的一小部分上进行微调的版本,专注于视觉问答任务。
文本生成图像
Transformers

P
merve
168
13
Paligemma Rich Captions
Apache-2.0
基于PaliGemma-3b模型在DocCI数据集上微调的图像描述生成模型,能生成200-350字符的详细描述文本,减少幻觉现象
图像生成文本
Transformers

英语
P
gokaygokay
66
9
Chexagent 2 3b
CheXagent是一个专注于胸部X光解读的基础模型,旨在辅助医疗影像分析。
图像生成文本
Transformers

其他
C
StanfordAIMI
28.72k
4
Vit Base Patch16 224 Turkish Gpt2 Medium
Apache-2.0
这是一个基于ViT和土耳其语GPT-2的视觉编码器-解码器模型,用于生成土耳其语的图像描述。
图像生成文本
Transformers

其他
V
atasoglu
14
0
Vit Medium Patch16 Clip 224.tinyclip Yfcc15m
MIT
基于ViT架构的CLIP模型,用于零样本图像分类任务
图像分类
V
timm
144
0
Xrayclip Vit L 14 Laion2b S32b B82k
CheXagent是一个专门用于胸部X光解读的基础模型,能够自动分析和解释胸部X光图像。
图像生成文本
Transformers

X
StanfordAIMI
975
0
Siglip Large Patch16 384
Apache-2.0
SigLIP是基于WebLi数据集预训练的多模态模型,采用改进的Sigmoid损失函数,适用于零样本图像分类和图文检索任务。
图像生成文本
Transformers

S
google
245.21k
6
Siglip Large Patch16 256
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的sigmoid损失函数提升性能
图像生成文本
Transformers

S
google
24.13k
12
Siglip Base Patch16 512
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉-语言模型,采用改进的sigmoid损失函数,在图像分类和图文检索任务中表现优异。
文本生成图像
Transformers

S
google
237.79k
24
Chinese Clip Vit Large Patch14
中文CLIP模型,基于Vision Transformer架构,支持图像与文本的跨模态理解与生成。
文本生成图像
Transformers

C
Xenova
14
0
Chartllama 13b
Apache-2.0
ChartLlama是基于LLaVA-1.5架构的多模态模型,专注于图表理解和分析任务。
大型语言模型
Transformers

英语
C
listen2you002
144
19
Siglip Base Patch16 224
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的Sigmoid损失函数,优化了图像-文本匹配任务
图像生成文本
Transformers

S
google
250.28k
43
Blip Image Captioning Base Test Sagemaker Tops 3
Bsd-3-clause
该模型是基于Salesforce的BLIP图像描述生成基础模型在SageMaker平台上微调的版本,主要用于图像描述生成任务。
图像生成文本
Transformers

B
GHonem
13
0
Swin Aragpt2 Image Captioning V3
基于Swin Transformer和AraGPT2架构的图像描述生成模型,能够为输入的图像生成文本描述。
图像生成文本
Transformers

S
AsmaMassad
18
0
Saved Model Git Base
MIT
基于microsoft/git-base在图像文件夹数据集上微调的视觉语言模型,主要用于图像描述生成任务
图像生成文本
Transformers

其他
S
holipori
13
0
Blip2 Flan T5 Xl Sharded
MIT
这是BLIP-2模型的分片版本,采用Flan T5-xl实现图像到文本任务,如图像描述和视觉问答。
图像生成文本
Transformers

英语
B
ethzanalytics
71
6
Image Caption
Apache-2.0
基于VisionEncoderDecoder架构的图像描述生成模型,能够将输入图像转换为自然语言描述。
图像生成文本
Transformers

I
jaimin
14
2
Clip Vit Large Patch14 Ko
MIT
基于知识蒸馏训练的韩语CLIP模型,支持韩语和英语的多模态理解
文本生成图像
Transformers

韩语
C
Bingsu
4,537
15
Layoutlmv3 Finetuned Wildreceipt
基于LayoutLMv3-base模型在WildReceipt收据数据集上微调的版本,用于收据关键信息提取任务
文字识别
Transformers

L
Theivaprakasham
118
3
Vitgpt2 Vizwiz
基于ViT-GPT2架构的视觉-语言模型,用于图像转文本任务
图像生成文本
Transformers

V
gagan3012
24
1
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文