A

Amoral Gemma3 12B Vision

由 gghfez 开发
基于soob3123/amoral-gemma3-12B的视觉增强版本,结合了Gemma3-12B大语言模型与视觉编码器,支持多模态任务
下载量 25
发布时间 : 3/21/2025
模型介绍
内容详情
替代品

模型简介

这是一个多模态模型,能够处理图像和文本输入,生成详细的图像描述或回答相关问题。相比基础Gemma3-12B模型,在视觉理解方面表现更优

模型特点

多模态能力
同时处理图像和文本输入,实现跨模态理解
详细图像描述
相比基础Gemma3-12B模型,能生成更丰富、更准确的图像描述
高效推理
支持设备自动映射(device_map)和bfloat16精度,优化推理效率

模型能力

图像理解
图像描述生成
视觉问答
多模态对话

使用案例

内容分析
图像描述生成
为上传的图片生成详细文字描述
输出包含物体、场景、颜色、光线等要素的丰富描述
辅助工具
视觉辅助
帮助视障人士理解图像内容
提供准确、详细的场景描述