许可证名称: apache-2.0
语言:
- 英文
任务标签: 图像文本到文本
标签:
- 多模态
库名称: transformers
基础模型:
- Sapnous/Sapnous-6B
许可证: apache-2.0

Sapnous-6B:增强世界感知能力的视觉语言模型
Sapnous-6B是一款先进的视觉语言模型,旨在通过强大的多模态能力提升对世界的感知和理解。该模型在先前视觉语言架构成功的基础上,进一步提升了性能和效率。
模型架构
- 基础架构: 60亿参数
- 隐藏层大小: 4096
- 注意力头数: 32
- 键/值头数: 8
- 隐藏层数: 28
- 窗口大小: 32768
- 视觉编码器:
- 深度: 32层
- 隐藏层大小: 1280
- 注意力头数: 16
- 图像块大小: 14x14
- 窗口大小: 112
评分
📊 基准测试结果
多模态基准测试
测试基准 |
InternVL2.5-8B |
MiniCPM-o 2.6 |
GPT-4o-mini |
Qwen2-VL-7B |
Qwen2.5-VL-7B |
Sapnous-MoE (更新版) |
Sapnous-6B |
MMMU_val |
56 |
50.4 |
60 |
54.1 |
58.6 |
64.4 |
60.2 |
MMMU-Pro_val |
34.3 |
- |
37.6 |
30.5 |
41.0 |
44.9 |
40.7 |
DocVQA_test |
93 |
93 |
- |
94.5 |
95.7 |
97.8 |
95.6 |
InfoVQA_test |
77.6 |
- |
- |
76.5 |
82.6 |
88.7 |
81.9 |
ChartQA_test |
84.8 |
- |
- |
83.0 |
87.3 |
94.2 |
87.2 |
TextVQA_val |
79.1 |
80.1 |
- |
84.3 |
84.9 |
91.2 |
84.6 |
OCRBench |
822 |
852 |
785 |
845 |
864 |
929.0 |
861 |
CC_OCR |
57.7 |
- |
- |
61.6 |
77.8 |
83.7 |
77.3 |
MMStar |
62.8 |
- |
- |
60.7 |
63.9 |
69.3 |
63.6 |
MMBench-V1.1-En_test |
79.4 |
78.0 |
76.0 |
80.7 |
82.6 |
89.6 |
82.4 |
MMT-Bench_test |
- |
- |
- |
63.7 |
63.6 |
69.0 |
63.3 |
MMStar |
61.5 |
57.5 |
54.8 |
60.7 |
63.9 |
69.2 |
63.6 |
MMVet_GPT-4-Turbo |
54.2 |
60.0 |
66.9 |
62.0 |
67.1 |
73.3 |
67.2 |
HallBench_avg |
45.2 |
48.1 |
46.1 |
50.6 |
52.9 |
58.0 |
52.5 |
MathVista_testmini |
58.3 |
60.6 |
52.4 |
58.2 |
68.2 |
74.0 |
67.9 |
MathVision |
- |
- |
- |
16.3 |
25.07 |
27.7 |
24.8 |
推理与视觉理解基准测试
测试基准 |
样本数 |
指标 |
Llama 3.2 11B |
Llama 3.2 90B |
Sapnous-MoE (更新版) |
Sapnous-6B |
VQAv2 (验证集) |
0 |
准确率 |
66.8 |
73.6 |
80.3 |
74.1 |
Text VQA (验证集) |
0 |
宽松准确率 |
73.1 |
73.5 |
81.1 |
74.7 |
DocVQA (验证集, 未见数据) |
0 |
ANLS |
62.3 |
70.7 |
77.2 |
71.0 |
MMMU (验证集, 零样本) |
0 |
微平均准确率 |
41.7 |
49.3 |
55.4 |
49.2 |
ChartQA (测试集) |
0 |
准确率 |
39.4 |
54.2 |
61.0 |
54.1 |
InfographicsQA (验证集, 未见数据) |
0 |
ANLS |
43.2 |
56.8 |
63.7 |
57.1 |
AI2 Diagram (测试集) |
0 |
准确率 |
62.4 |
75.3 |
82.3 |
75.6 |
MMMU (验证集, 思维链) |
0 |
微平均准确率 |
50.7 |
60.3 |
66.5 |
60.6 |
MMMU-Pro, 标准 (10选项, 测试集) |
0 |
准确率 |
33.0 |
45.2 |
50.0 |
45.5 |
MMMU-Pro, 视觉 (测试集) |
0 |
准确率 |
23.7 |
33.8 |
39.6 |
33.9 |
MathVista (测试集) |
0 |
准确率 |
51.5 |
57.3 |
63.0 |
57.5 |
ChartQA (测试集, 思维链) |
0 |
宽松准确率 |
83.4 |
85.5 |
93.3 |
86.0 |
AI2 Diagram (测试集) |
0 |
准确率 |
91.1 |
92.3 |
100.9 |
93.5 |
DocVQA (测试集) |
0 |
ANLS |
88.4 |
90.1 |
98.9 |
91.3 |
VQAv2 (测试集) |
0 |
准确率 |
75.2 |
78.1 |
86.0 |
79.0 |
MMLU (思维链) |
0 |
宏平均/准确率 |
73.0 |
86.0 |
94.3 |
87.0 |
MATH (思维链) |
0 |
最终准确率 |
51.9 |
68.0 |
75.2 |
68.5 |
GPQA |
0 |
准确率 |
32.8 |
46.7 |
52.2 |
46.7 |
MGSM (思维链) |
0 |
准确率 |
68.9 |
86.9 |
95.0 |
87.4 |
该模型分布在5个safetensors文件中,以实现高效加载和内存管理。每个文件包含特定的层和权重,详细信息记录在model.safetensors.index.json中。
使用方法
from transformers import pipeline
import requests
from PIL import Image
from io import BytesIO
def process_image_from_url(image_url, text_prompt):
"""使用Transformers pipeline处理来自URL的图像"""
try:
response = requests.get(image_url, stream=True)
response.raise_for_status()
image = Image.open(BytesIO(response.content))
inputs = {"image": image, "text": text_prompt}
pipe = pipeline("image-text-to-text", model="Sapnous-AI/Sapnous-VR-6B", trust_remote_code=True)
result = pipe(inputs)
return result
except requests.exceptions.RequestException as e:
print(f"获取图像时出错: {e}")
return None
except Exception as e:
print(f"发生错误: {e}")
return None
image_url = "example.com"
text_prompt = "这张图片中有什么?"
result = process_image_from_url(image_url, text_prompt)
if result:
print(result)
模型能力
- 多模态理解和生成
- 通过先进的视觉编码器增强视觉感知
- 高效处理长序列
- 在各种视觉语言任务中表现稳健
引用
@misc{sapnous-6b,
title = {Sapnous-6B},
author = {Sapnous AI Team},
year = {2025}
}
@article{Sapnous6B,
title={Sapnous-6B:增强视觉语言模型在任何分辨率下对世界的感知},
author={Sapnous AI Team},
year={2025}
}
@article{Sapnous-VR,
title={Sapnous-VR:一款多功能视觉语言模型,用于理解、定位、文本阅读及其他},
author={Sapnous AI Team},
year={2025}
}
许可证
请参阅LICENSE文件了解使用和分发条款。