图像描述生成

# 图像描述生成

Wr30a Deep 7B 0711 I1 GGUF

这是prithivMLmods/WR30a-Deep-7B-0711模型的量化版本，支持多语言，适用于文本生成、图像字幕生成等多种任务。

图像生成文本

Transformers 支持多种语言

Qwen2.5 VL 7B Instruct Gemlite Ao A8w8

这是一个经过A8W8量化的多模态大语言模型，基于Qwen2.5-VL-7B-Instruct，支持视觉和语言任务。

图像生成文本

Devstral Small Vision 2505 GGUF

基于Mistral Small模型的视觉编码器，支持图像文本生成任务，适配llama.cpp框架

图像生成文本

UI TARS 1.5 7B 6bit

UI-TARS-1.5-7B-6bit 是一个基于 MLX 格式转换的视觉语言模型，支持图像理解和文本生成任务。

图像生成文本

Transformers 支持多种语言

基于Salesforce/blip2-opt-2.7b微调的视觉语言模型，用于图像问答任务

文本生成图像

Blip Custom Captioning

BLIP是一个统一的视觉-语言预训练框架，擅长图像描述生成等视觉-语言任务

图像生成文本

Kimi VL A3B Thinking 6bit

Kimi-VL-A3B-Thinking-6bit 是一个基于 MLX 格式转换的多语言视觉语言模型，支持图像文本到文本的任务。

图像生成文本

Transformers 其他

Gemma 3 12b It Qat 3bit

这是一个基于 Google Gemma 3-12B 模型转换而来的 MLX 格式模型，支持图像文本到文本的任务。

图像生成文本

Transformers 其他

Gemma 3 4b It Qat 4bit

Gemma 3 4B IT QAT 4bit 是一个经过量化感知训练（QAT）的4位量化大语言模型，基于Gemma 3架构，专为MLX框架优化。

图像生成文本

Transformers 其他

GIT是一个基于Transformer的图像到文本生成模型，能够根据输入的图像生成描述性文本。

图像生成文本

PyTorch 支持多种语言

Florence 2 Base Gpt4 Captioner V1

基于Florence-2-base-ft微调的GPT4-O风格字幕生成器，用于生成图像描述

图像生成文本

Transformers 支持多种语言

Qwen2 VL 7B Captioner Relaxed GGUF

该模型是基于Qwen2-VL-7B-Captioner-Relaxed转换的GGUF格式版本，专为图像转文本任务优化，支持通过llama.cpp和Koboldcpp等工具运行。

图像生成文本英语

Llama Joycaption Alpha Two Hf Llava FP8 Dynamic

这是对fancyfeast开发的Llama JoyCaption Alpha Two模型进行的FP8压缩版本，使用llm-compressor工具实现，并兼容vllm框架。

图像生成文本英语

Blip Image Captioning Large

基于COCO数据集预训练的视觉语言模型，擅长生成精准的图像描述

图像生成文本

Florence 2 Base Castollux V0.4

基于microsoft/Florence-2-base微调的图像描述生成模型，专注于提升描述质量和格式

图像生成文本

Transformers 英语

PJMixers-Images

Molmo 7B D 0924 NF4

Molmo-7B-D-0924的4Bit量化版本，通过NF4量化策略降低显存占用，适用于显存受限环境。

图像生成文本

LLaVA-Llama3是基于Llama-3的多模态模型，支持图像与文本的联合处理。

图像生成文本

Qwen2 VL 7B Captioner Relaxed Q4 K M GGUF

这是一个基于Qwen2-VL-7B-Captioner-Relaxed模型转换的GGUF格式模型，专门用于图像转文本任务。

图像生成文本英语

Vitucano 1b5 V1

ViTucano是原生葡萄牙语预训练的视觉助手，整合了视觉理解与语言能力，适用于多模态任务。

图像生成文本

Transformers 其他

Microsoft Git Base

GIT是一个基于Transformer的生成式图像转文本模型，能够将视觉内容转换为文本描述。

图像生成文本支持多种语言

Pixtral是一个基于Mistral架构的多模态模型，能够处理图像和文本输入，生成文本输出。

图像生成文本

BLIP Radiology Model

BLIP 是一个基于 Transformer 的图像描述生成模型，能够为输入图像生成自然语言描述。

图像生成文本

Vit GPT2 Image Captioning

基于ViT-GPT2架构的图像描述生成模型，能够为输入的图像生成自然语言描述。

图像生成文本

Vit GPT2 Image Captioning

基于ViT-GPT2架构的图像描述生成模型，能够为输入的图像生成自然语言描述。

图像生成文本

Vit GPT2 Image Captioning Model

基于ViT-GPT2架构的图像描述生成模型，能够将输入图像转换为描述性文本

图像生成文本

Llama 3.2 11B Vision Instruct Nf4

基于meta-llama/Llama-3.2-11B-Vision-Instruct的4位量化版本，支持图像理解和文本生成任务

图像生成文本

Pixtral 12b Nf4

基于Mistral社区Pixtral-12B的4位量化版本，专注于图像文本到文本任务，支持中文描述生成

图像生成文本

这是基于俄语对Qwen2-VL-2B模型进行的LORA微调版本，支持多模态任务。

图像生成文本

Transformers 支持多种语言

Qwen2 Vl Tiny Random

这是一个基于Qwen2-VL-7B-Instruct配置随机初始化的小型调试模型，用于视觉语言任务

图像生成文本

Moondream Caption

基于Moondream2的定制小型视觉模型，专为图像描述生成任务微调

图像生成文本

该模型用于将图像内容转换为文本描述，适用于非商业用途。

Turkish LLaVA V0.1 Q4 K M GGUF

Turkish-LLaVA-v0.1-Q4_K_M-GGUF 是土耳其语的视觉语言模型，支持图像文本到文本的处理任务。

图像生成文本其他

孔雀模型是基于InstructBLIP架构的阿拉伯语多模态大语言模型，其语言模型采用AraLLaMA。

图像生成文本

PyTorch 阿拉伯语

Idefics3 8B Llama3

Idefics3是一个开源的多模态模型，能够处理任意序列的图像和文本输入并生成文本输出。它在OCR、文档理解和视觉推理方面有显著提升。

图像生成文本

Transformers 英语

Llama 3 EZO VLM 1

基于 Llama-3-8B-Instruct 的日语视觉语言模型，通过额外预训练和指令调优增强日语能力

图像生成文本日语

BLIP是一个统一的视觉语言预训练框架，擅长图像描述生成和视觉问答等任务，通过创新的数据过滤机制提升性能

图像生成文本

Florence 2 Large Ft

Florence-2是微软开发的先进视觉基础模型，采用基于提示的范式处理各类视觉与视觉-语言任务。

图像生成文本

Florence 2 SD3 Captioner

Florence-2-SD3-Captioner 是一个基于 Florence-2 架构的图像描述生成模型，专门用于生成高质量的图像描述文本。

图像生成文本

Transformers 支持多种语言

Florence 2 Large Ft

Florence-2是微软开发的先进视觉基础模型，采用基于提示的方法处理各类视觉与视觉-语言任务。

图像生成文本

distilvit是一个基于VIT图像编码器和蒸馏版GPT-2文本解码器的图像转文本模型，能够生成图像的文本描述。

图像生成文本

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24