L

Llama 3.2 11B Vision OCR

由 Swapnik 开发
基于Unsloth优化的Llama 3.2-11B视觉指令模型,4bit量化版本,训练速度提升2倍
下载量 80
发布时间 : 3/8/2025
模型介绍
内容详情
替代品

模型简介

这是一个结合视觉和文本指令的多模态模型,适用于视觉-语言任务,采用Llama架构并经过4bit量化优化

模型特点

高效训练优化
使用Unsloth和Huggingface TRL库进行训练,速度提升2倍
4bit量化
采用4bit量化技术,降低显存需求
多模态能力
同时支持视觉和文本指令处理

模型能力

视觉指令理解
多模态文本生成
图像内容分析
跨模态推理

使用案例

视觉问答
图像描述生成
根据输入图像生成详细描述
视觉指令执行
理解并执行基于图像和文本的复合指令
教育辅助
多模态教学
结合图像和文字解释复杂概念