许可证:apache-2.0
数据集:
- omkarthawakar/VRC-Bench
- Xkev/LLaVA-CoT-100k
语言:
- en
基础模型:
- meta-llama/Llama-3.2-11B-Vision-Instruct
管道标签:question-answering
LlamaV-o1
概述
LlamaV-o1 是一款先进的多模态大语言模型(LLM),专为复杂的视觉推理任务而设计。
基于前沿的课程学习技术,并通过如束搜索(Beam Search)等方法优化,
LlamaV-o1 在多样化的基准测试中展现出卓越性能。
该模型经过逐步推理的微调,能够处理视觉感知、数学推理、社会与文化背景、医学影像及文档理解等领域的任务。
该模型注重可解释性和精确性。通过采用结构化推理方法,
LlamaV-o1 能够为其决策提供连贯且准确的解释,是研究和需要高水平推理应用的理想工具。
在基准评估中,LlamaV-o1 包含了超过 4,000 个手动验证的推理步骤,
为多模态推理设立了新标准,在复杂场景中提供一致且可靠的结果。
主要特点:
- 模型规模: 110 亿参数。
- 架构: 基于 Llama(大语言模型架构)系列。
- 微调: 针对指令遵循、思维链推理及跨任务鲁棒泛化能力进行了优化。
- 应用: 适用于对话代理、教育工具、内容创作等多种场景。
模型详情
- 开发方: MBZUAI
- 模型版本: v0.1
- 发布日期: 2025 年 1 月 13 日
- 训练数据集: 多样化的多语言语料库,包括高质量指令微调数据、思维链数据集及通用语料。
- 框架: Pytorch
预期用途
LlamaV-o1 适用于广泛的自然语言处理任务,包括但不限于:
- 文本生成
- 情感分析
- 文本摘要
- 问答系统
- 思维链推理
非适用场景
该模型不应用于需要高风险决策的场景,如医疗诊断、金融预测或任何可能造成危害的领域。
训练流程
- 微调: 模型在针对推理、连贯性和多样性优化的数据集上进行微调,利用指令微调技术提升下游应用的可用性。
- 优化: 包含推理扩展优化,以平衡性能和计算效率。
评估
基准测试
LlamaV-o1 已在以下基准任务中完成评估:
局限性
尽管该模型在广泛任务中表现良好,但在以下方面可能存在不足:
- 超出训练语料范围的高度专业化领域知识。
- 对模糊或对抗性提示生成准确输出的能力。
使用方法
from transformers import MllamaForConditionalGeneration, AutoProcessor
model_id = "omkarthawakar/LlamaV-o1"
model = MllamaForConditionalGeneration.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
processor = AutoProcessor.from_pretrained(model_id)
推理代码请参考 llamav-o1.py。
结果
表1: 基于VRC-Bench的最终答案准确率和推理步骤性能的模型对比。每项最佳结果(闭源和开源)以粗体标注。我们的LlamaV-o1在超越开源对标模型(Llava-CoT)的同时,与闭源模型相比也极具竞争力。
模型 |
GPT-4o |
Claude-3.5 |
Gemini-2.0 |
Gemini-1.5 Pro |
Gemini-1.5 Flash |
GPT-4o Mini |
Llama-3.2 Vision |
Mulberry |
Llava-CoT |
LlamaV-o1 (Ours) |
最终答案 |
59.28 |
61.35 |
61.16 |
61.35 |
54.99 |
56.39 |
48.40 |
51.90 |
54.09 |
56.49 |
推理步骤 |
76.68 |
72.12 |
74.08 |
72.12 |
71.86 |
74.05 |
58.37 |
63.86 |
66.21 |
68.93 |
训练数据
LlamaV-o1 基于 LLaVA-CoT-100k 数据集训练。
我们已为多步推理任务格式化训练样本。
训练流程
LlamaV-o1 模型使用 llama-recipes 进行微调。
详细训练流程即将发布!
引用
若本文对您有帮助,请考虑为我们的 Github 仓库点亮星标 🌟 并引用 📑 论文:
@misc{thawakar2025llamavo1,
title={LlamaV-o1: Rethinking Step-by-step Visual Reasoning in LLMs},
author={Omkar Thawakar and Dinura Dissanayake and Ketan More and Ritesh Thawakar and Ahmed Heakl and Noor Ahsan and Yuhao Li and Mohammed Zumri and Jean Lahoud and Rao Muhammad Anwer and Hisham Cholakkal and Ivan Laptev and Mubarak Shah and Fahad Shahbaz Khan and Salman Khan},
year={2025},
eprint={2501.06186},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2501.06186},
}