INFRL-Qwen2.5-VL-72B开源多模态视觉语言模型

INFRL Qwen2.5 VL 72B Preview Q8 With Bf16 Output And Bf16 Embedding.gguf

由 GeorgyGUF 开发

基于Qwen2.5-VL-72B-Instruct改进的多模态视觉语言模型，在多个视觉推理基准测试中表现优异

下载量 64

发布时间 : 5/10/2025

模型简介

增强视觉推理能力的多模态模型，在数学视觉理解任务上达到开源模型最佳性能

卓越的视觉推理能力

在MathVision、MathVista和MathVerse等视觉推理基准测试中表现最佳

强化学习优化

采用基于规则奖励的强化学习方法提升模型性能

开源模型领先者

在多个视觉推理测试中超越GPT4o、Gemini等商业模型

视觉问答

数学问题视觉理解

多模态推理

图像内容分析

教育科技

数学题目视觉解答

解析包含图表和公式的数学问题

在MathVista测试集上达到77.8%准确率

研究评估

视觉语言模型基准测试

用于评估多模态模型的视觉推理能力

提供与LLM-Judge一致的评估框架

模型	MathVision (测试集)	MathVista (小型测试集)	MathVerse (小型测试集)
GPT4o	30.6	60	41.2
Gemini-2.0-Flash	41.3	70.1	50.6
Claude 3.5 Sonnet	33.5	67.7	47.8
QvQ-72B	35.9	71.4	48.6
InternVL2.5-78B	34.9	72.3	51.7
Qwen-VL-2.5-72B	38.1	74.8	57.18
INFRL-VL-Preview	41.9	77.8	58.84