许可证:Apache-2.0
语言:
任务类型:问答
标签:
基础模型:
- deepseek-ai/DeepSeek-V3-0324
- sesame/csm-1b
- Qwen/QwQ-32B
- deepseek-ai/DeepSeek-R1
- ds4sd/SmolDocling-256M-preview
- mistralai/Mistral-Small-3.1-24B-Instruct-2503
数据集:
- nvidia/Llama-Nemotron-Post-Training-Dataset-v1
- FreedomIntelligence/medical-o1-reasoning-SFT
- facebook/natural_reasoning
- glaiveai/reasoning-v1-20m
评估指标:
Qwen2.5-VL-32B-Instruct
最新更新:
在原有基础上,我们通过强化学习进一步提升了Qwen2.5-VL-32B的数学和问题解决能力。同时,模型的主观用户体验也显著改善,响应风格更符合人类偏好。特别是在数学、逻辑推理和知识问答等客观查询方面,回答的详细程度和格式清晰度均有明显提升。
简介
自Qwen2-VL发布五个月以来,众多开发者基于其视觉语言模型构建了新模型,并提供了宝贵反馈。在此期间,我们专注于打造更实用的视觉语言模型。今天,我们很高兴推出Qwen家族的最新成员:Qwen2.5-VL。
核心增强:
- 视觉理解能力:Qwen2.5-VL不仅能识别常见物体如花鸟鱼虫,还擅长分析图像中的文本、图表、图标、图形和布局。
- 智能代理能力:可直接作为视觉代理,动态调用工具,支持计算机和手机操作。
- 长视频理解与事件捕捉:能解析超过1小时的视频,新增精准定位相关片段的能力。
- 多格式视觉定位:通过生成边界框或点坐标精确定位图像对象,并输出稳定的JSON格式坐标和属性。
- 结构化输出:支持发票、表格等扫描数据的结构化输出,适用于金融、商业等场景。
模型架构更新:
- 视频理解的动态分辨率与帧率训练:
通过动态FPS采样扩展时空维度,使模型适应不同采样率的视频。结合mRoPE的时间维度ID与绝对时间对齐,模型能学习时序与速度,最终实现精准时间点定位。
- 高效视觉编码器优化:
在ViT中策略性引入窗口注意力,提升训练和推理速度。采用SwiGLU与RMSNorm进一步优化ViT架构,与Qwen2.5 LLM结构对齐。
我们提供30亿、70亿和720亿参数的三款模型。本仓库为指令调优的320亿参数版本。更多信息请访问博客和GitHub。
评估
视觉能力
数据集 |
Qwen2.5-VL-72B (🤗🤖) |
Qwen2-VL-72B (🤗🤖) |
Qwen2.5-VL-32B (🤗🤖) |
MMMU |
70.2 |
64.5 |
70 |
MMMU Pro |
51.1 |
46.2 |
49.5 |
MMStar |
70.8 |
68.3 |
69.5 |
MathVista |
74.8 |
70.5 |
74.7 |
MathVision |
38.1 |
25.9 |
40.0 |
OCRBenchV2 |
61.5/63.7 |
47.8/46.1 |
57.2/59.1 |
CC-OCR |
79.8 |
68.7 |
77.1 |
DocVQA |
96.4 |
96.5 |
94.8 |
InfoVQA |
87.3 |
84.5 |
83.4 |
LVBench |
47.3 |
- |
49.00 |
CharadesSTA |
50.9 |
- |
54.2 |
VideoMME |
73.3/79.1 |
71.2/77.8 |
70.5/77.9 |
MMBench-Video |
2.02 |
1.7 |
1.93 |
AITZ |
83.2 |
- |
83.1 |
Android Control |
67.4/93.7 |
66.4/84.4 |
69.6/93.3 |
ScreenSpot |
87.1 |
- |
88.5 |
ScreenSpot Pro |
43.6 |
- |
39.4 |
AndroidWorld |
35 |
- |
22.0 |
OSWorld |
8.83 |
- |
5.92 |
文本能力
模型 |
MMLU |
MMLU-PRO |
数学 |
GPQA-diamond |
MBPP |
人类评估 |
Qwen2.5-VL-32B |
78.4 |
68.8 |
82.2 |
46.0 |
84.0 |
91.5 |
Mistral-Small-3.1-24B |
80.6 |
66.8 |
69.3 |
46.0 |
74.7 |
88.4 |
Gemma3-27B-IT |
76.9 |
67.5 |
89 |
42.4 |
74.4 |
87.8 |
GPT-4o-Mini |
82.0 |
61.7 |
70.2 |
39.4 |
84.8 |
87.2 |
Claude-3.5-Haiku |
77.6 |
65.0 |
69.2 |
41.6 |
85.6 |
88.1 |
环境要求
Qwen2.5-VL代码已集成至最新版Hugging Face transformers,建议通过以下命令从源码安装:
pip install git+https://github.com/huggingface/transformers accelerate
否则可能报错:
KeyError: 'qwen2_5_vl'
快速开始
以下示例展示如何使用🤖 ModelScope和🤗 Transformers运行Qwen2.5-VL。
我们提供工具包方便处理多种视觉输入(如base64、URL、交错图像/视频),安装命令:
pip install qwen-vl-utils[decord]==0.0.8
非Linux系统若无法通过PyPI安装decord,可改用pip install qwen-vl-utils
(将回退至torchvision处理视频),或从源码安装decord。
使用🤗 Transformers对话
示例代码:
from transformers import Qwen2_5_VLForConditionalGeneration, AutoTokenizer, AutoProcessor
from qwen_vl_utils import process_vision_info
model = Qwen2_5_VLForConditionalGeneration.from_pretrained(
"Qwen/Qwen2.5-VL-32B-Instruct", torch_dtype="auto", device_map="auto"
)
processor = AutoProcessor.from_pretrained("Qwen/Qwen2.5-VL-32B-Instruct")
messages = [
{
"role": "user",
"content": [
{"type": "image", "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg"},
{"type": "text", "text": "描述这张图片。"},
],
}
]
text = processor.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
image_inputs, video_inputs = process_vision_info(messages)
inputs = processor(
text=[text],
images=image_inputs,
videos=video_inputs,
padding=True,
return_tensors="pt",
).to("cuda")
generated_ids = model.generate(**inputs, max_new_tokens=128)
output_text = processor.batch_decode(
[out[len(inp):] for inp, out in zip(inputs.input_ids, generated_ids)],
skip_special_tokens=True
)
print(output_text[0])
多图推理
messages = [
{
"role": "user",
"content": [
{"type": "image", "image": "file:///图片1.jpg"},
{"type": "image", "image": "file:///图片2.jpg"},
{"type": "text", "text": "找出两图的共同点。"},
],
}
]
视频推理
messages = [
{
"role": "user",
"content": [
{"type": "video", "video": ["帧1.jpg", "帧2.jpg", ...]},
{"type": "text", "text": "描述视频内容。"},
],
}
]
🤖 ModelScope
建议中国大陆用户使用ModelScope,snapshot_download
可解决模型下载问题。
更多技巧
- 图像支持本地文件/URL/base64,视频暂仅支持本地文件
- 分辨率控制:通过
min_pixels
和max_pixels
平衡性能,或直接指定resized_height/width
- 长文本处理:默认支持32K上下文,超长文本可通过YaRN技术扩展(需修改config.json)
引用
若觉得我们的工作有帮助,请引用:
@article{Qwen2.5-VL,
title={Qwen2.5-VL技术报告},
author={白帅等},
journal={arXiv预印本},
year={2025}
}