INFRL-Qwen2.5-VL-72B视觉语言模型开源！多视觉推理测试表现出色

首页

INFRL Qwen2.5 VL 72B Preview Ggufs Fully Quantized

由 GeorgyGUF 开发

基于Qwen2.5-VL-72B-Instruct改进的视觉语言模型，在多个视觉推理基准测试中表现优异

文本生成图像英语开源协议:Apache-2.0 #视觉推理强化 #数学视觉问答 #多模态大模型

下载量 230

发布时间 : 5/14/2025

模型简介

增强视觉推理能力的多模态模型，在数学视觉理解任务上达到开源模型最佳性能

模型特点

卓越的视觉推理能力

在MathVision、MathVista和MathVerse等视觉推理基准测试中表现最佳

强化学习优化

采用基于规则奖励的强化学习方法提升视觉理解能力

多模态理解

能够同时处理视觉和语言信息，进行复杂的跨模态推理

模型能力

视觉问答

数学问题视觉理解

图表分析

跨模态推理

使用案例

教育科技

数学题目视觉解答

解析包含图表和公式的数学题目

在MathVista测试集上达到77.8%准确率

科学研究

科学图表分析

理解并解释科研论文中的复杂图表

🚀 INFRL-Qwen2.5-VL-72B-Preview

INFRL-Qwen2.5-VL-72B-Preview 是一个在视觉推理方面表现出色的模型。它基于 Qwen2.5-VL-72B-Instruct 模型进行改进，截至2025年3月25日，在多个视觉推理基准测试中，它是表现最佳的开源视觉语言模型。

🚀 快速开始

文档未提供快速开始相关内容，可参考模型仓库中的使用说明进行操作。

✨ 主要特性

视觉推理增强：在 Qwen2.5-VL-72B-Instruct 模型基础上，提升了视觉推理能力。
基准测试领先：截至2025年3月25日，在 MathVision、MathVista 和 MathVerse 等多个视觉推理基准测试中，是表现最佳的开源视觉语言模型。

📚 详细文档

模型概述

INFRL-Qwen2.5-VL-72B-Preview 在 Qwen2.5-VL-72B-Instruct 模型的基础上改进了视觉推理能力。
截至2025年3月25日，INFRL-Qwen2.5-VL-72B-Preview 是在多个视觉推理基准测试（MathVision、MathVista、MathVerse）中表现最佳的开源视觉语言模型。

评估

模型	MathVision (测试集)	MathVista (测试迷你集)	MathVerse (测试迷你集)
GPT4o	30.6	60	41.2
Gemini-2.0-Flash	41.3	70.1	50.6
Claude 3.5 Sonnet	33.5	67.7	47.8
QvQ-72B	35.9	71.4	48.6
InternVL2.5-78B	34.9	72.3	51.7
Qwen-VL-2.5-72B	38.1	74.8	57.18
INFRL-VL-Preview	41.9	77.8	58.84

团队将发布一个用于视觉语言模型评估的代码仓库，该仓库支持基于简单规则奖励的强化学习训练，同时与大语言模型评判结果保持一致，敬请期待！

贡献者

导师

魏楚 • 齐远

视觉语言团队

王浩哲 • 黄祖铭

强化学习团队

王浩哲 • 曲超 • 李龙

致谢

感谢郝佳然、宋柳含在强化学习基础设施方面提供的支持。

引用

如果您觉得我们的模型有用，请考虑引用以下内容：

@misc {INFRL_VL_Preview,
	author       = { {Wang, Haozhe and Huang, Zuming and Qu, Chao and Chu, Wei and Qi, Yuan} },
	title        = { INFRL-Qwen2.5-VL-72B-Preview },
	year         = 2025,
	url          = { https://huggingface.co/infly/INFRL-Qwen2.5-VL-72B-Preview},
	publisher    = { Hugging Face }
}