Sapnous-VR-6B开源视觉语言模型 - 以多模态能力提升世界感知理解

首页

Sapnous VR 6B

由 Sapnous-AI 开发

Sapnous-6B是一款先进的视觉语言模型，通过强大的多模态能力提升对世界的感知和理解。

图像生成文本

Transformers

英语开源协议:Apache-2.0 #多模态理解 #高精度OCR #长序列处理

下载量 261

发布时间 : 3/24/2025

模型简介

该模型在先前视觉语言架构成功的基础上，进一步提升了性能和效率，具备增强的视觉感知能力和高效处理长序列的能力。

模型特点

强大的多模态能力

结合视觉和语言处理能力，实现对世界的综合感知和理解

高效处理长序列

支持高达32768的窗口大小，能够处理长文本和复杂视觉输入

先进的视觉编码器

32层深度视觉编码器，112窗口大小，14x14图像块处理能力

高性能基准测试

在多个视觉语言基准测试中表现优异，超越同类模型

模型能力

多模态理解和生成

图像内容分析

文本生成

文档理解

图表解析

数学问题解答

视觉问答

使用案例

文档处理

文档问答

从扫描文档中提取信息并回答问题

在DocVQA测试集上达到95.6%准确率

视觉问答

图像内容理解

回答关于图像内容的复杂问题

在VQAv2验证集上达到74.1%准确率

教育

数学问题解答

解析图表和数学问题并提供解答

在MathVista测试集上达到57.5%准确率

🚀 Sapnous-6B：用于增强世界感知的视觉语言模型

Sapnous-6B 是一款先进的视觉语言模型，旨在通过强大的多模态能力，提升对世界的感知和理解。该模型在以往视觉语言架构的基础上取得成功，同时在性能和效率方面引入了全新的改进。

✨ 主要特性

具备多模态理解和生成能力。
通过先进的视觉编码器增强视觉感知。
能够高效处理长序列。
在各种视觉语言任务中表现出色。

📦 安装指南

文档未提及安装步骤，故跳过该章节。

💻 使用示例

基础用法

from transformers import pipeline
import requests
from PIL import Image
from io import BytesIO

def process_image_from_url(image_url, text_prompt):
    """Processes an image from a URL using a Transformers pipeline."""
    try:
        # Fetch the image from the URL
        response = requests.get(image_url, stream=True)
        response.raise_for_status()  # Raise an exception for bad status codes (4xx or 5xx)

        # Open the image using PIL
        image = Image.open(BytesIO(response.content))

        # Create the input for the pipeline
        inputs = {"image": image, "text": text_prompt}

        # Initialize the pipeline
        pipe = pipeline("image-text-to-text", model="Sapnous-AI/Sapnous-VR-6B", trust_remote_code=True)

        # Process the image and text
        result = pipe(inputs)
        return result

    except requests.exceptions.RequestException as e:
        print(f"Error fetching image: {e}")
        return None
    except Exception as e:
        print(f"An error occurred: {e}")
        return None

# Example usage
image_url = "example.com" #replace with your image url.
text_prompt = "What is in this image?"

result = process_image_from_url(image_url, text_prompt)

if result:
    print(result)

高级用法

文档未提及高级用法代码示例，故跳过该部分。

📚 详细文档

模型架构

属性	详情
基础架构	60 亿参数
隐藏层大小	4096
注意力头数量	32
键/值头数量	8
隐藏层数量	28
窗口大小	32768
视觉编码器深度	32 层
视觉编码器隐藏层大小	1280
视觉编码器注意力头数量	16
视觉编码器块大小	14x14
视觉编码器窗口大小	112

评分

多模态基准测试

基准测试	InternVL2.5 - 8B	MiniCPM - o 2.6	GPT - 4o - mini	Qwen2 - VL - 7B	Qwen2.5 - VL - 7B	Sapnous - MoE (更新版)	Sapnous - 6B
MMMU_val	56	50.4	60	54.1	58.6	64.4	60.2
MMMU - Pro_val	34.3	-	37.6	30.5	41.0	44.9	40.7
DocVQA_test	93	93	-	94.5	95.7	97.8	95.6
InfoVQA_test	77.6	-	-	76.5	82.6	88.7	81.9
ChartQA_test	84.8	-	-	83.0	87.3	94.2	87.2
TextVQA_val	79.1	80.1	-	84.3	84.9	91.2	84.6
OCRBench	822	852	785	845	864	929.0	861
CC_OCR	57.7	-	-	61.6	77.8	83.7	77.3
MMStar	62.8	-	-	60.7	63.9	69.3	63.6
MMBench - V1.1 - En_test	79.4	78.0	76.0	80.7	82.6	89.6	82.4
MMT - Bench_test	-	-	-	63.7	63.6	69.0	63.3
MMStar	61.5	57.5	54.8	60.7	63.9	69.2	63.6
MMVet_GPT - 4 - Turbo	54.2	60.0	66.9	62.0	67.1	73.3	67.2
HallBench_avg	45.2	48.1	46.1	50.6	52.9	58.0	52.5
MathVista_testmini	58.3	60.6	52.4	58.2	68.2	74.0	67.9
MathVision	-	-	-	16.3	25.07	27.7	24.8

推理与视觉理解基准测试

基准测试	指标	Llama 3.2 11B	Llama 3.2 90B	Sapnous - MoE (更新版)	Sapnous - 6B
VQAv2 (val)	准确率	66.8	73.6	80.3	74.1
Text VQA (val)	宽松准确率	73.1	73.5	81.1	74.7
DocVQA (val, unseen)	ANLS	62.3	70.7	77.2	71.0
MMMU (val, 0 - shot)	微观平均准确率	41.7	49.3	55.4	49.2
ChartQA (test)	准确率	39.4	54.2	61.0	54.1
InfographicsQA (val, unseen)	ANLS	43.2	56.8	63.7	57.1
AI2 Diagram (test)	准确率	62.4	75.3	82.3	75.6
MMMU (val, CoT)	微观平均准确率	50.7	60.3	66.5	60.6
MMMU - Pro, Standard (10 opts, test)	准确率	33.0	45.2	50.0	45.5
MMMU - Pro, Vision (test)	准确率	23.7	33.8	39.6	33.9
MathVista (testmini)	准确率	51.5	57.3	63.0	57.5
ChartQA (test, CoT)	宽松准确率	83.4	85.5	93.3	86.0
AI2 Diagram (test)	准确率	91.1	92.3	100.9	93.5
DocVQA (test)	ANLS	88.4	90.1	98.9	91.3
VQAv2 (test)	准确率	75.2	78.1	86.0	79.0
MMLU (CoT)	宏观平均/准确率	73.0	86.0	94.3	87.0
MATH (CoT)	最终精确匹配率	51.9	68.0	75.2	68.5
GPQA	准确率	32.8	46.7	52.2	46.7
MGSM (CoT)	精确匹配率	68.9	86.9	95.0	87.4

模型文件分布

该模型分布在 5 个 safetensors 文件中，以实现高效加载和内存管理。每个文件包含的特定层和权重信息记录在 model.safetensors.index.json 中。

🔧 技术细节

文档未提及技术实现细节，故跳过该章节。

📄 许可证

请参考 LICENSE 文件获取使用和分发条款。

📖 引用

@misc{sapnous-6b,
    title = {Sapnous-6B},
    author = {Sapnous AI Team},
    year = {2025}
}

@article{Sapnous6B,
    title={Sapnous-6B: Enhancing Vision-Language Model's Perception of the World at Any Resolution},
    author={Sapnous AI Team},
    year={2025}
}

@article{Sapnous-VR,
    title={Sapnous-VR: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond},
    author={Sapnous AI Team},
    year={2025}
}