图像文本生成

# 图像文本生成

Perseus Doc Vl 071225 GGUF

Perseus-Doc-vl-0712量化模型是一个支持文本生成推理、图像字幕生成、光学字符识别等多领域应用的视觉与语言理解模型，基于transformers库构建。

图像生成文本

Transformers 支持多种语言

Gemma 3 12b It Quantized.w8a8

基于google/gemma-3-12b-it的INT8量化版本，支持视觉文本输入和文本输出，适用于高效推理部署

图像生成文本

Xlangai Jedi 3B 1080p GGUF

Jedi-3B-1080p是由xlangai开发的3B参数模型，经过llama.cpp量化处理，适用于图像文本生成文本任务。

大型语言模型英语

Medgemma 4b It GGUF

medgemma-4b-it 是一个专注于医疗领域的多模态模型，能够处理图像和文本输入，适用于放射学、临床推理等多个医疗场景。

文本生成图像

Dimple是首个结合自回归与扩散训练范式的离散扩散多模态大语言模型（DMLLM），在LLaVA-NEXT相同数据集上训练后，以3.9%的优势超越LLaVA-NEXT-7B。

图像生成文本

Transformers 英语

Magma-8B是一个基于GGUF格式的图像文本到文本转换模型，适用于多模态任务处理。

图像生成文本

Llava 1.5 7b Hf Q4 K M GGUF

该模型是基于llava-hf/llava-1.5-7b-hf转换的GGUF格式模型，支持图像文本生成任务。

图像生成文本英语

Qwen Qwen2.5 VL 72B Instruct GGUF

Qwen2.5-VL-72B-Instruct的多模态大语言模型量化版本，支持图像文本到文本任务，适用于多种量化级别，从高精度到低内存需求。

文本生成图像英语

Qwen2.5-VL-7B-Instruct 是一个基于 Qwen2.5 架构的多模态模型，支持图像和文本的联合处理，适用于视觉语言任务。

图像生成文本英语

Mistral Community Pixtral 12b GGUF

这是pixtral-12b模型的量化版本，使用llama.cpp进行量化，支持图像文本到文本的任务。

图像文本到文本

UI TARS 1.5 7B 4bit

UI-TARS-1.5-7B-4bit是一个多模态模型，专注于图像文本到文本的转换任务，支持英文语言。

图像生成文本

Transformers 支持多种语言

Gemma 3 1b It Qat

Gemma 3是谷歌推出的轻量级多模态模型，能够处理文本和图像输入并生成文本输出。该模型具有128K大上下文窗口和超140种语言的多语言支持。

图像生成文本

Internvl3 8B Hf

InternVL3 是一个先进的多模态大语言模型系列，具备强大的多模态感知和推理能力，支持图像、视频和文本输入。

图像生成文本

Transformers 其他

Internvl3 2B Hf

InternVL3-2B是基于Hugging Face Transformers库实现的多模态大语言模型，在图像、视频和文本处理等多模态任务上表现出色，支持多种输入方式和高效的批量推理。

图像生成文本

Transformers 其他

Internvl3 1B Hf

InternVL3 是一个先进的多模态大语言模型系列，展示了卓越的多模态感知和推理能力，支持图像、视频和文本输入。

图像生成文本

Transformers 其他

Kimi VL A3B Thinking 8bit

Kimi-VL-A3B-Thinking-8bit 是一个基于 MLX 格式转换的多模态视觉语言模型，支持图像文本到文本的生成任务。

图像生成文本

Transformers 其他

Gemma 3 27b It Qat Bf16

Gemma 3 27B IT QAT BF16 是由 Google 发布的 Gemma 系列模型的一个版本，经过量化感知训练（QAT）并转换为 BF16 格式，适用于 MLX 框架。

图像生成文本

Gemma 3 27b It Qat 6bit

这是一个基于Google Gemma 3 27B模型的量化版本，支持6位量化，适用于图像文本到文本的任务。

图像生成文本

Transformers 其他

Gemma 3 27b It Qat 3bit

该模型是从 google/gemma-3-27b-it-qat-q4_0-unquantized 转换为 MLX 格式的 3 位量化版本，适用于图像文本到文本任务。

图像生成文本

Transformers 其他

Gemma 3 27b It Qat 4bit

Gemma 3 27B IT QAT 4bit 是一个基于 Google 原始模型转换而来的 MLX 格式模型，支持图像文本到文本的任务。

图像生成文本

Transformers 其他

Gemma 3 4b It GPTQ 4b 128g

基于gemma-3-4b-it模型进行INT4量化的版本，显著减少存储和计算资源需求

图像生成文本

Gemma 3 12b It Qat Int4 Unquantized

Gemma 3是Google推出的轻量级多模态开放模型，支持文本和图像输入，生成文本输出，具有128K大上下文窗口和多语言能力。

图像生成文本

Qwen2.5 VL 7B Instruct Gptqmodel Int8

基于Qwen2.5-VL-7B-Instruct模型进行GPTQ-INT8量化的视觉语言模型

图像生成文本

Transformers 支持多种语言

Gemma 3 12b It Qat Q4 0 Unquantized

Gemma 3是Google基于Gemini技术打造的轻量级开源多模态模型系列，支持文本和图像输入并生成文本输出。12B版本经过指令调优和量化感知训练(QAT)，适合资源有限环境部署。

文本生成图像

Google Gemma 3 27b It

Gemma 3是Google推出的轻量级、最先进的开放模型家族，基于与Gemini模型相同的研究和技术构建。它是多模态模型，能处理文本和图像输入并生成文本输出。

图像生成文本

Gemma 3 27b It Qat Q4 0 Gguf

Gemma 3是Google推出的轻量级开源多模态模型系列，支持文本和图像输入，能生成文本输出。该版本为27B参数的指令调优模型，采用量化感知训练技术，内存需求低但质量接近原版。

图像生成文本

Vora 7B Instruct

VoRA是一个基于7B参数的视觉-语言模型，专注于图像文本到文本的转换任务。

图像生成文本

VoRA是一个基于7B参数的视觉语言模型，能够处理图像和文本输入，生成文本输出。

图像生成文本

Qwen2.5 VL 7B Instruct Q4 K M GGUF

这是Qwen2.5-VL-7B-Instruct模型的GGUF量化版本，适用于多模态任务，支持图像和文本输入。

图像生成文本英语

Gemma 3是谷歌推出的轻量级、最先进的开放模型家族，基于与Gemini模型相同的研究和技术构建。它支持多模态，能处理文本和图像输入并生成文本输出，适用于多种文本生成和图像理解任务。

图像生成文本

axolotl-mirrors

Qwen2.5 VL 7B Instruct GGUF

Qwen2.5-VL-7B-Instruct 是一个多模态视觉语言模型，支持图像理解和文本生成任务。

图像生成文本英语

Heron NVILA Lite 1B

基于NVILA-Lite架构训练的日语视觉语言模型，支持日语和英语的图文交互

图像生成文本支持多种语言

Qwen.qwen2.5 VL 72B Instruct GGUF

Qwen2.5-VL-72B-Instruct是通义千问团队开发的大规模视觉语言模型，支持图像和文本的多模态理解与生成。

图像生成文本

Gemma 3 27b It Int4 Awq

Gemma是Google推出的轻量级先进开放模型系列，基于与Gemini相同的研究和技术构建。27B版本是多模态模型，支持文本和图像输入，生成文本输出。

文本生成图像

Gemma 3 4b It Int4 Awq

Gemma是Google推出的轻量级先进开放模型系列，基于与Gemini相同的研究技术构建。Gemma 3是多模态模型，能处理文本和图像输入并生成文本输出。

文本生成图像

Smoldocling 256M Preview Mlx Fp16

该模型是从 ds4sd/SmolDocling-256M-preview 转换为 MLX 格式的视觉语言模型，支持图像文本到文本任务。

图像生成文本

Transformers 英语

Gemma 3 4b Pt Qat Q4 0 Gguf

Gemma 3是Google推出的轻量级开放模型系列，基于与Gemini相同技术构建，支持多模态输入和文本输出。

图像生成文本

Gemma 3 27b It GGUF

Gemma-3-27b-it-GGUF 是基于 Google 的 Gemma-3-27b-it 模型经过量化处理的版本，适用于图像文本到文本的任务。

文本生成图像

Gemma 3 4b It GGUF

Gemma-3-4b-it是Google发布的轻量级语言模型，基于Gemma架构，适用于文本生成任务。

大型语言模型

Gemma 3 27b It Mlx

这是一个基于Google Gemma 3 27B IT模型转换的MLX版本，支持图像文本到文本的任务。

图像生成文本

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24