INFRL - Qwen2.5 - VL - 72B - Preview开源视觉语言模型，优化推理，基准测试表现出色

首页

INFRL Qwen2.5 VL 72B Preview Bf16.gguf

由 GeorgyGUF 开发

基于Qwen2.5-VL-72B-Instruct优化的视觉语言模型，在多个视觉推理基准测试中表现优异

文本生成图像英语开源协议:Apache-2.0 #视觉推理增强 #多模态数学解题 #强化学习优化

下载量 40

发布时间 : 5/10/2025

模型简介

INFRL-Qwen2.5-VL-72B预览版是基于Qwen2.5-VL-72B-Instruct优化的视觉语言模型，特别提升了视觉推理能力，在MathVision、MathVista和MathVerse等视觉推理基准测试中表现突出。

模型特点

强化视觉推理能力

在Qwen2.5-VL-72B-Instruct基础上特别优化了视觉推理能力

多基准测试领先

在MathVision、MathVista和MathVerse等多个视觉推理基准测试中表现最优

开源模型

作为开源视觉语言模型，在多个测试中超越商业模型表现

模型能力

视觉问答

图像理解

数学推理

多模态理解

使用案例

教育

数学题目解答

解析包含图表和公式的数学题目

在MathVision测试集上达到41.9分

研究

视觉推理研究

用于视觉语言模型的能力评估和研究

在MathVista测试精简集上达到77.8分

🚀 INFRL-Qwen2.5-VL-72B-Preview

INFRL-Qwen2.5-VL-72B-Preview 是一个在视觉推理任务上表现出色的模型。它基于 Qwen2.5-VL-72B-Instruct 模型进行改进，截至2025年3月25日，在多个视觉推理基准测试中，它是表现最佳的开源视觉语言模型。

🚀 快速开始

本部分暂未提供具体的快速开始内容，你可以参考后续的详细信息进行使用。

✨ 主要特性

视觉推理能力提升：在 Qwen2.5-VL-72B-Instruct 模型基础上，进一步增强了视觉推理能力。
优异的基准测试表现：截至2025年3月25日，在 MathVision、MathVista 和 MathVerse 等多个视觉推理基准测试中，是表现最佳的开源视觉语言模型。

📚 详细文档

模型信息

属性	详情
基础模型	Qwen/Qwen2.5-VL-72B-Instruct
语言	英文
许可证	apache-2.0
标签	transformers、multimodal
任务类型	视觉问答

评估结果

模型	MathVision (测试集)	MathVista (测试迷你集)	MathVerse (测试迷你集)
GPT4o	30.6	60	41.2
Gemini-2.0-Flash	41.3	70.1	50.6
Claude 3.5 Sonnet	33.5	67.7	47.8
QvQ-72B	35.9	71.4	48.6
InternVL2.5-78B	34.9	72.3	51.7
Qwen-VL-2.5-72B	38.1	74.8	57.18
INFRL-VL-Preview	41.9	77.8	58.84

我们将发布一个用于视觉语言模型评估的代码仓库，它支持基于简单规则奖励的强化学习训练，同时与大语言模型评判结果保持一致，请持续关注！

👥 贡献者

指导老师

魏楚 • 齐远

视觉语言团队

王浩哲 • 黄祖铭

强化学习团队

王浩哲 • 瞿超 • 李龙

🙏 致谢

感谢郝佳然、宋柳含在强化学习基础设施方面提供的支持。

📄 许可证

本项目采用 apache-2.0 许可证。

📚 引用

如果您发现我们的模型有用，请考虑引用以下内容：

@misc {INFRL_VL_Preview,
	author       = { {Wang, Haozhe and Huang, Zuming and Qu, Chao and Chu, Wei and Qi, Yuan} },
	title        = { INFRL-Qwen2.5-VL-72B-Preview },
	year         = 2025,
	url          = { https://huggingface.co/infly/INFRL-Qwen2.5-VL-72B-Preview},
	publisher    = { Hugging Face }
}