LlamaV-o1开源多模态大语言模型 - 免费部署助力复杂视觉推理任务

首页

Llamav O1

由 omkarthawakar 开发

LlamaV-o1 是一款先进的多模态大语言模型，专为复杂的视觉推理任务而设计，通过课程学习技术优化，在多样化的基准测试中展现出卓越性能。

文本生成图像

Safetensors

英语开源协议:Apache-2.0 #多模态推理 #思维链优化 #视觉问答

下载量 1,406

发布时间 : 12/18/2024

模型简介

LlamaV-o1 是一款基于 Llama 架构的多模态大语言模型，经过逐步推理的微调，能够处理视觉感知、数学推理、社会与文化背景、医学影像及文档理解等领域的任务。

模型特点

多模态推理能力

能够处理视觉感知、数学推理、社会与文化背景、医学影像及文档理解等多模态任务。

结构化推理方法

采用结构化推理方法，能够为其决策提供连贯且准确的解释。

高性能基准测试

在 VRC-Bench 等基准测试中表现出色，超越多个开源和闭源模型。

模型能力

视觉推理

数学推理

文档理解

医学影像分析

多模态问答

使用案例

教育

教育工具

用于开发智能教育工具，帮助学生理解复杂概念。

内容创作

内容生成

用于生成高质量的多模态内容，如图文结合的教程或报告。

对话代理

智能对话系统

用于开发能够理解视觉和文本输入的智能对话代理。

🚀 LlamaV-o1

LlamaV-o1 是一款先进的多模态大语言模型（LLM），专为复杂的视觉推理任务而设计。它基于前沿的课程学习技术构建，并采用了诸如束搜索等优化技术，在各种基准测试中展现出卓越的性能。该模型针对逐步推理进行了微调，能够处理视觉感知、数学推理、社会文化背景、医学影像和文档理解等领域的任务。

🔍 快速开始

代码示例

from transformers import MllamaForConditionalGeneration, AutoProcessor

model_id = "omkarthawakar/LlamaV-o1"

model = MllamaForConditionalGeneration.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)

推理请参考 llamav-o1.py。

✨ 主要特性

模型规模：拥有 110 亿个参数。
架构基础：基于 Llama（大语言模型架构）家族。
微调优化：针对指令遵循、思维链推理和跨任务的强大泛化能力进行了增强。
应用场景：非常适合用于对话代理、教育工具、内容创作等用例。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

📚 详细文档

模型详情

开发者：MBZUAI
模型版本：v0.1
发布日期：2025 年 1 月 13 日
训练数据集：多样化的多语言语料库，包括用于指令调优的高质量数据源、思维链数据集和通用语料库。
框架：Pytorch

预期用途

LlamaV-o1 设计用于广泛的自然语言处理（NLP）任务，包括但不限于：

文本生成
情感分析
文本摘要
问答系统
思维链推理

非预期用途

该模型不应在需要高风险决策的应用中使用，例如医疗诊断、金融预测或任何可能造成潜在危害的场景。

训练过程

微调：该模型在针对推理、连贯性和多样性进行优化的数据集上进行了微调，利用指令调优技术提高其在下游应用中的可用性。
优化：包括推理缩放优化，以平衡性能和计算效率。

评估

基准测试

LlamaV-o1 已在一系列基准任务上进行了评估：

推理：VRC-Bench

局限性

虽然该模型在广泛的任务中表现良好，但可能在以下方面存在困难：

训练语料库之外的高度技术性、特定领域的知识。
为模糊或对抗性提示生成准确的输出。

结果

表 1：基于最终答案准确性和推理步骤性能，在提议的 VRC-Bench 上对模型进行比较。每种情况（闭源和开源）中的最佳结果以粗体显示。我们的 LlamaV-o1 与开源同类模型（Llava-CoT）相比取得了更优的性能，同时在与闭源模型的竞争中也具有竞争力。

模型	GPT-4o	Claude-3.5	Gemini-2.0	Gemini-1.5 Pro	Gemini-1.5 Flash	GPT-4o Mini	Llama-3.2 Vision	Mulberry	Llava-CoT	LlamaV-o1 (我们的模型)
最终答案	59.28	61.35	61.16	61.35	54.99	56.39	48.40	51.90	54.09	56.49
推理步骤	76.68	72.12	74.08	72.12	71.86	74.05	58.37	63.86	66.21	68.93

训练数据

LlamaV-o1 在 LLaVA-CoT-100k 数据集上进行训练。我们已经为多步推理格式化了训练样本。

训练过程

LlamaV-o1 模型在 llama-recipes 上进行微调。详细的训练过程即将发布！

📄 许可证

本项目采用 Apache-2.0 许可证。

🔖 引用

如果您觉得这篇论文有用，请考虑给我们的 Github 仓库点个星 🌟 并引用 📑 我们的论文：

@misc{thawakar2025llamavo1,
      title={LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs}, 
      author={Omkar Thawakar and Dinura Dissanayake and Ketan More and Ritesh Thawkar and Ahmed Heakl and Noor Ahsan and Yuhao Li and Mohammed Zumri and Jean Lahoud and Rao Muhammad Anwer and Hisham Cholakkal and Ivan Laptev and Mubarak Shah and Fahad Shahbaz Khan and Salman Khan},
      year={2025},
      eprint={2501.06186},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2501.06186}, 
}