M

Minimax VL 01

由 MiniMaxAI 开发
MiniMax-VL-01是一个强大的多模态大语言模型,采用'ViT-MLP-LLM'框架,具有动态分辨率处理能力,在多项视觉语言任务中表现优异。
下载量 237
发布时间 : 1/12/2025
模型介绍
内容详情
替代品

模型简介

该模型结合了视觉变换器(ViT)、MLP投影器和基础大语言模型,能够处理从336×336到2016×2016的动态分辨率图像输入,在多模态任务中展现出顶级性能。

模型特点

动态分辨率处理
支持从336×336到2016×2016的动态分辨率输入,保留缩略图并分割编码
大规模训练
视觉变换器在6.94亿图像-标题对上训练,共处理5120亿token
多模态能力
结合视觉和语言理解,在复杂多模态任务中表现优异

模型能力

图像理解
视觉问答
文档分析
图表理解
数学推理
科学问题解答

使用案例

教育
科学问题解答
解答包含图表和公式的科学问题
在MMMU和MMMU-Pro基准测试中表现优异
文档处理
文档问答
从文档中提取信息并回答问题
在DocVQA基准测试中达到96.4%准确率
数据分析
图表理解
分析和解释图表数据
在ChartQA基准测试中达到91.7%准确率