Llama-3.2-90B-Vision-Instruct开源多模态大模型 - 免费部署支持视觉指令理解

首页

Llama 3.2 90B Vision Instruct Unsloth Bnb 4bit

由 unsloth 开发

Meta Llama 3.2系列90B参数的多模态大语言模型，支持视觉指令理解，经Unsloth动态4位量化优化

文本生成图像

Transformers

英语#多模态视觉理解 #高效微调优化 #多语言对话代理

下载量 58

发布时间 : 12/4/2024

模型简介

基于Meta Llama 3.2架构的多模态大语言模型，支持视觉和文本输入，专为多语言对话场景优化，适用于代理检索和摘要等任务。Unsloth版本通过动态4位量化技术显著提升推理效率。

模型特点

动态4位量化

采用Unsloth专利技术选择性避免量化关键参数，在保持低显存占用的同时显著提升模型精度

多模态支持

同时处理视觉和文本输入，实现跨模态理解与生成

高效微调

Unsloth优化实现5倍训练速度提升和70%内存节省，支持在消费级GPU上微调

多语言优化

专门针对8种核心语言优化对话能力，支持更广泛的语言扩展

模型能力

视觉问答

多语言文本生成

图像描述生成

跨模态检索

多轮对话

文本摘要

使用案例

智能助手

多模态客服机器人

通过图像和文字理解用户问题，提供精准解答

支持同时处理产品图片和文字描述的复杂查询

内容生成

图文内容创作

根据视觉输入生成营销文案或社交媒体内容

可保持品牌语调一致性的高质量输出

教育

交互式学习助手

解析教材图表并生成解释性内容

提升STEM学科的学习效率

🚀 Unsloth微调大语言模型项目

本项目借助Unsloth技术，可让Llama 3.2、Gemma 2、Mistral 2等模型的微调速度提升2 - 5倍，同时减少70%的内存使用。

Unsloth的动态4位量化技术可选择性地避免对某些参数进行量化，在保持显存使用量与BnB 4位量化相近的情况下，大幅提高了精度。
查看我们在Hugging Face上的Unsloth量化模型全集。

我们为Llama 3.2 Vision (11B)提供了免费的Google Colab Tesla T4笔记本：点击访问

🚀 快速开始

对于模型的更多详细信息，请访问Meta的原始模型卡片。

✨ 主要特性

免费微调

所有笔记本都对初学者友好！添加您的数据集，点击“全部运行”，您将获得一个速度快2倍的微调模型，该模型可以导出为GGUF、vLLM格式或上传到Hugging Face。

支持的模型	免费笔记本	性能提升	内存节省
Llama-3.2 (3B)	▶️ 在Colab上开始	2.4倍更快	58%更少
Llama-3.2 (11B vision)	▶️ 在Colab上开始	2倍更快	60%更少
Qwen2 VL (7B)	▶️ 在Colab上开始	1.8倍更快	60%更少
Qwen2.5 (7B)	▶️ 在Colab上开始	2倍更快	60%更少
Llama-3.1 (8B)	▶️ 在Colab上开始	2.4倍更快	58%更少
Phi-3.5 (mini)	▶️ 在Colab上开始	2倍更快	50%更少
Gemma 2 (9B)	▶️ 在Colab上开始	2.4倍更快	58%更少
Mistral (7B)	▶️ 在Colab上开始	2.2倍更快	62%更少
DPO - Zephyr	▶️ 在Colab上开始	1.9倍更快	19%更少

这个对话笔记本适用于ShareGPT ChatML / Vicuna模板。
这个文本完成笔记本适用于原始文本。这个DPO笔记本可复现Zephyr。
* Kaggle有2个T4，但我们使用1个。由于开销问题，1个T4快5倍。

特别感谢

非常感谢Meta和Llama团队创建并发布这些模型。

📚 详细文档

模型信息

Meta Llama 3.2多语言大语言模型（LLMs）集合是一组预训练和指令微调的生成模型，大小为1B和3B（文本输入/文本输出）。Llama 3.2指令微调的纯文本模型针对多语言对话用例进行了优化，包括智能检索和摘要任务。在常见的行业基准测试中，它们的表现优于许多可用的开源和闭源聊天模型。

属性	详情
模型开发者	Meta
模型架构	Llama 3.2是一种自回归语言模型，采用了优化的Transformer架构。微调版本使用监督微调（SFT）和基于人类反馈的强化学习（RLHF）来符合人类对有用性和安全性的偏好。
支持语言	官方支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2的训练数据涵盖的语言比这8种支持语言更广泛。开发者可以在遵守Llama 3.2社区许可证和可接受使用政策的前提下，对Llama 3.2模型进行微调以支持其他语言。开发者应始终确保其部署（包括涉及其他语言的部署）是安全和负责任的。
Llama 3.2模型家族	标记计数仅指预训练数据。所有模型版本都使用分组查询注意力（GQA）以提高推理可扩展性。
模型发布日期	2024年9月25日
状态	这是一个基于离线数据集训练的静态模型。未来可能会发布改进模型能力和安全性的版本。
许可证	使用Llama 3.2受Llama 3.2社区许可证（自定义商业许可协议）的约束。