license: other
license_name: qwen
license_link: https://huggingface.co/Qwen/QVQ-72B-Preview/blob/main/LICENSE
language:
- zh
pipeline_tag: image-text-to-text
base_model: Qwen/QVQ-72B-Preview
tags:
- 对话
- awq
library_name: transformers
QVQ-72B-Preview AWQ 4比特量化版本
本仓库提供由Qwen团队开发的QVQ-72B-Preview模型的AWQ 4比特量化版本。该模型权重在量化前进行了零填充处理,通过解决整除性约束确保多GPU张量并行的兼容性。填充操作对计算影响极小,同时实现了跨多GPU的高效扩展。
QVQ-72B-Preview
模型介绍
QVQ-72B-Preview是Qwen团队开发的实验性研究模型,专注于提升视觉推理能力。
性能表现
|
QVQ-72B-Preview |
o1-2024-12-17 |
gpt-4o-2024-05-13 |
Claude3.5 Sonnet-20241022 |
Qwen2VL-72B |
MMMU(验证集) |
70.3 |
77.3 |
69.1 |
70.4 |
64.5 |
MathVista(迷你版) |
71.4 |
71.0 |
63.8 |
65.3 |
70.5 |
MathVision(完整版) |
35.9 |
– |
30.4 |
35.6 |
25.9 |
OlympiadBench |
20.4 |
– |
25.9 |
– |
11.2 |
QVQ-72B-Preview在多项基准测试中表现卓越。在多模态大规模多任务理解(MMMU)基准上取得70.3%的优异成绩,展现了其在跨学科理解和推理方面的强大能力。在MathVision基准上的显著提升则突显了模型在数学推理任务中的进步。OlympiadBench成绩也证明了模型处理复杂问题的增强能力。
但并非完美无缺:需要正视的局限性
尽管QVQ-72B-Preview展现出超越预期的性能表现,仍需注意以下局限性:
- 语言混杂现象:模型偶尔会出现不同语言的混杂使用或意外切换,可能影响回答的清晰度。
- 递归推理循环:存在陷入递归推理循环的风险,导致生成冗长响应却无法得出最终结论。
- 安全与伦理考量:需要健全的安全机制来确保可靠且安全的性能表现,用户部署时需保持谨慎。
- 性能与基准限制:虽然在视觉推理方面有所改进,但QVQ并未完全取代Qwen2-VL-72B的所有能力。在进行多步视觉推理时,模型可能逐渐偏离图像内容,产生幻觉现象。此外,在人物、动植物等基础识别任务上,QVQ相较Qwen2-VL-72B并未展现出显著提升。
注:当前模型仅支持单轮对话和图像输出,不支持视频输入。
引用声明
如果您觉得我们的工作有帮助,欢迎引用。
@misc{qvq-72b-preview,
title = {QVQ:以智慧之眼观世界},
url = {https://qwenlm.github.io/blog/qvq-72b-preview/},
author = {Qwen团队},
month = {12月},
year = {2024}
}
@article{Qwen2VL,
title={Qwen2-VL:增强视觉语言模型在任何分辨率下的世界感知能力},
author={王鹏、白帅、谭思南、王世杰、范志浩、白金泽、陈克勤、刘雪晶、王佳琳、葛文斌、范阳、党凯、杜梦飞、任宣成、门瑞、刘大珩、周昌、周靖人、林俊洋},
journal={arXiv预印本 arXiv:2409.12191},
year={2024}
}