图文理解

# 图文理解

Gemma 3 27b It Qat 8bit

Gemma 3 27B IT QAT 8bit 是一个基于 Google 的 Gemma 3 27B 模型转换而来的 MLX 格式模型，支持图文到文本的任务。

图像生成文本

Transformers 其他

R1-VL-7B是一个基于Qwen2-VL-7B-Instruct的推理模型，采用逐步分组相对策略优化（StepGRPO）方法进行训练，专注于图文转文本任务。

图像生成文本

Qwen.qwen2 VL 2B GGUF

Qwen2-VL-2B是一个多模态模型，能够处理图像和文本输入，生成文本输出。

图像生成文本

Qwen2.5 VL 7B Instruct GPTQ Int4

Qwen2.5-VL-7B-Instruct-GPTQ-Int4是基于Qwen2.5-VL-7B-Instruct模型进行非官方GPTQ-Int4量化的版本，支持图文到文本的多模态任务。

图像生成文本

Transformers 支持多种语言

基于微软Phi-1.5架构的视觉语言模型，结合CLIP实现图像处理能力

图像生成文本

Transformers 支持多种语言

Florence 2 DocVQA

这是微软Florence-2模型使用Docmatix数据集（5%数据量）以1e-6学习率微调1天后的版本

文本生成图像

Mengzi Oscar Base Caption

基于中文多模态预训练模型孟子-奥斯卡，在AIC-ICC中文图像描述数据集上微调而成的中文多模态图像描述模型

图像生成文本

Transformers 中文

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24