Llama-3.2V-11B-cot开源视觉语言模型 - 支持自发系统性推理

首页

Llama 3.2V 11B Cot

由 Xkev 开发

Llama-3.2V-11B-cot 是一个能够进行自发、系统性推理的视觉语言模型，基于 LLaVA-CoT 框架开发。

图像生成文本

Transformers

英语开源协议:Apache-2.0 #视觉语言推理 #多模态思维链 #系统性推理

下载量 5,089

发布时间 : 11/19/2024

模型简介

该模型是 LLaVA-CoT 的首个版本，专注于视觉语言任务中的逐步推理能力，支持图像到文本的转换和理解。

模型特点

逐步推理能力

支持系统性、逐步的视觉语言推理，能够处理复杂的多模态任务。

高性能基准测试

在多个视觉语言基准测试中表现优异，平均得分达63.5分。

长文本生成

支持最大2048个新token的生成，适合处理需要长文本输出的任务。

模型能力

图像理解

文本生成

多模态推理

视觉问答

使用案例

教育

视觉数学问题解答

解答包含图表和公式的数学问题

在MathVista基准测试中获得54.8分

通用AI助手

多模态对话

基于图像和文本输入的智能对话

在MMBench基准测试中获得75.0分

🚀 Llama-3.2V-11B-cot模型

Llama-3.2V-11B-cot是LLaVA-CoT的首个版本，它是一个能够进行自发、系统推理的视觉语言模型。该模型在论文LLaVA-CoT: Let Vision Language Models Reason Step-by-Step中被提出。

🚀 快速开始

你可以使用Llama-3.2-11B-Vision-Instruct的推理代码来启动该模型。

✨ 主要特性

推理能力：能够进行自发、系统的推理。
多任务表现：在多个视觉语言任务基准测试中展现出一定的性能。

📦 安装指南

文档未提供安装步骤，暂不展示。

💻 使用示例

文档未提供代码示例，暂不展示。

📚 详细文档

模型详情

许可证：Apache-2.0
微调基础模型：meta-llama/Llama-3.2-11B-Vision-Instruct

基准测试结果

MMStar	MMBench	MMVet	MathVista	AI2D	Hallusion	平均值
57.6	75.0	60.3	54.8	85.7	47.8	63.5

复现结果

要复现我们的结果，你应该使用VLMEvalKit并采用以下设置：

参数	值
do_sample	True
temperature	0.6
top_p	0.9
max_new_tokens	2048

你可以在此文件的第80 - 83行更改这些参数，并在整个文件中修改max_new_tokens。

注意：除了将max_new_tokens扩展到2048之外，我们遵循与Llama-3.2-11B-Vision-Instruct相同的设置。

在获得结果后，你应该过滤模型输出，仅保留和之间的输出。理论上这不应有任何差异，但根据经验，我们观察到一些性能差异，因为评判器GPT - 4o有时可能不准确。通过保留和之间的输出，大多数答案可以直接使用VLMEvalKit系统提取，这样可以减少偏差。

训练详情

训练数据

该模型在LLaVA-CoT-100k数据集上进行训练。

训练过程

该模型在llama-recipes上进行微调，使用以下设置。使用相同的设置应该能够准确复现我们的结果。

参数	值
FSDP	启用
lr	1e - 5
num_epochs	3
batch_size_training	4
use_fast_kernels	True
run_validation	False
batching_strategy	填充
context_length	4096
gradient_accumulation_steps	1
gradient_clipping	False
gradient_clipping_threshold	1.0
weight_decay	0.0
gamma	0.85
seed	42
use_fp16	False
mixed_precision	True