Llama-3.2-11B-Vision-invoices-mini开源多模态模型 - 支持视觉指令理解，训练提速2倍

首页

Llama 3.2 11B Vision Invoices Mini

由 atulSethi 开发

基于unsloth/llama-3.2-11b-vision-instruct-unsloth-bnb-4bit微调的多模态大语言模型，支持视觉指令理解任务，使用Unsloth优化训练速度提升2倍。

文本生成图像

Transformers

英语开源协议:Apache-2.0 #视觉指令微调 #4bit量化推理 #Unsloth加速

下载量 46

发布时间 : 3/10/2025

模型简介

这是一个支持视觉和文本指令的多模态大语言模型，适用于多模态理解和生成任务。

模型特点

高效训练优化

使用Unsloth和Huggingface TRL库进行训练，速度提升2倍

多模态能力

支持视觉和文本指令的理解与生成

量化压缩

采用4bit量化技术，减少模型存储和计算需求

模型能力

文本生成

视觉指令理解

多模态推理

指令跟随

使用案例

多模态交互

视觉问答

根据图像内容回答相关问题

图像描述生成

为输入图像生成自然语言描述

内容生成

多模态内容创作

结合视觉和文本输入生成创意内容

属性	详情
模型类型	mllama模型
训练数据	基于unsloth/llama - 3.2 - 11b - vision - instruct - unsloth - bnb - 4bit模型微调
许可证	apache - 2.0

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Llama 3.2 11B Vision Invoices Mini

模型简介

模型特点

模型能力

使用案例

🚀 上传的微调模型

🚀 快速开始

📄 许可证