语言:
- 多语言
标签:
- 视觉规范模型
- 视觉语言模型
- 变压器架构
许可证: mit
任务类型: 图文生成
模型概述
Spec-Vision-V1是一款轻量级、最先进的开源多模态模型,其训练数据包含合成数据和经过筛选的公开数据源,特别注重文本和视觉领域的高质量、富含推理能力的数据。该模型属于SpecVision系列,支持128K的上下文长度(以token计)。经过严格的增强流程,包括监督微调和直接偏好优化,以确保精确遵循指令和强大的安全措施。
🚀 模型概览
Spec-Vision-V1专为深度整合视觉与文本数据而构建,使其能够理解并处理图像与自然语言的结合。该模型在包含图像及其相关标题、描述和上下文信息的多样化数据集上进行了训练。
✨ 核心特性
- 🖼️ 多模态处理: 无缝结合图像与文本输入。
- ⚡ 基于Transformer的架构: 在视觉语言理解方面高效。
- 📝 优化用于视觉问答与描述生成: 擅长回答视觉问题和生成描述。
- 📥 预训练模型: 可用于推理和微调。
📌 安装
使用Spec-Vision-V1前,请安装所需依赖:
pip install transformers torch torchvision pillow
🔥 使用指南
📥 加载模型
from transformers import AutoModelForCausalLM, AutoProcessor
from PIL import Image
import torch
model_name = "Spec-Vision-V1"
model = AutoModelForCausalLM.from_pretrained(model_name, trust_remote_code=True)
processor = AutoProcessor.from_pretrained(model_name, trust_remote_code=True)
image = Image.open("example.jpg")
text = "详细描述这张图片。"
inputs = processor(images=image, text=text, return_tensors="pt")
with torch.no_grad():
outputs = model(**inputs)
print(outputs)
📊 模型规格
属性 |
描述 |
模型名称 |
Spec-Vision-V1 |
架构 |
基于Transformer的视觉语言模型 |
预训练 |
✅ 是 |
数据集 |
训练于多样化图文配对数据 |
框架 |
PyTorch & Hugging Face Transformers |
🎯 应用场景
任务 |
描述 |
🖼️ 图像描述生成 |
为输入图像生成详细描述。 |
🧐 视觉问答 |
回答关于图像的问题。 |
🔎 图文匹配 |
判断图像与给定文本的相关性。 |
🌍 场景理解 |
从复杂视觉数据中提取洞察。 |
BLINK基准测试
包含14项人类能快速解决但对当前多模态大模型仍具挑战性的视觉任务基准。
基准测试 |
Spec-Vision-V1 |
LlaVA-Interleave-Qwen-7B |
InternVL-2-4B |
InternVL-2-8B |
Gemini-1.5-Flash |
GPT-4o-mini |
Claude-3.5-Sonnet |
Gemini-1.5-Pro |
GPT-4o |
艺术风格 |
87.2 |
62.4 |
55.6 |
52.1 |
64.1 |
70.1 |
59.8 |
70.9 |
73.3 |
计数 |
54.2 |
56.7 |
54.2 |
66.7 |
51.7 |
55.0 |
59.2 |
65.0 |
65.0 |
取证检测 |
92.4 |
31.1 |
40.9 |
34.1 |
54.5 |
38.6 |
67.4 |
60.6 |
75.8 |
功能对应 |
29.2 |
34.6 |
24.6 |
24.6 |
33.1 |
26.9 |
33.8 |
31.5 |
43.8 |
智商测试 |
25.3 |
26.7 |
26.0 |
30.7 |
25.3 |
29.3 |
26.0 |
34.0 |
19.3 |
拼图 |
68.0 |
86.0 |
55.3 |
52.7 |
71.3 |
72.7 |
57.3 |
68.0 |
67.3 |
多视角推理 |
54.1 |
44.4 |
48.9 |
42.9 |
48.9 |
48.1 |
55.6 |
49.6 |
46.6 |
目标定位 |
49.2 |
54.9 |
53.3 |
54.1 |
44.3 |
57.4 |
62.3 |
65.6 |
68.0 |
相对深度 |
69.4 |
77.4 |
63.7 |
67.7 |
57.3 |
58.1 |
71.8 |
76.6 |
71.0 |
相对反射率 |
37.3 |
34.3 |
32.8 |
38.8 |
32.8 |
27.6 |
36.6 |
38.8 |
40.3 |
语义对应 |
36.7 |
31.7 |
31.7 |
22.3 |
32.4 |
31.7 |
45.3 |
48.9 |
54.0 |
空间关系 |
65.7 |
75.5 |
78.3 |
78.3 |
55.9 |
81.1 |
60.1 |
79.0 |
84.6 |
视觉对应 |
53.5 |
40.7 |
34.9 |
33.1 |
29.7 |
52.9 |
72.1 |
81.4 |
86.0 |
视觉相似性 |
83.0 |
91.9 |
48.1 |
45.2 |
47.4 |
77.8 |
84.4 |
81.5 |
88.1 |
综合得分 |
57.0 |
53.1 |
45.9 |
45.4 |
45.8 |
51.9 |
56.5 |
61.0 |
63.2 |
Video-MME基准测试
全面评估多模态大模型处理视频数据能力的基准,涵盖广泛视觉领域、时间跨度和数据模态。
基准测试 |
Spec-Vision-V1 |
LlaVA-Interleave-Qwen-7B |
InternVL-2-4B |
InternVL-2-8B |
Gemini-1.5-Flash |
GPT-4o-mini |
Claude-3.5-Sonnet |
Gemini-1.5-Pro |
GPT-4o |
短视频(<2分钟) |
60.8 |
62.3 |
60.7 |
61.7 |
72.2 |
70.1 |
66.3 |
73.3 |
77.7 |
中视频(4-15分钟) |
47.7 |
47.1 |
46.4 |
49.6 |
62.7 |
59.6 |
54.7 |
61.2 |
68.0 |
长视频(30-60分钟) |
43.8 |
41.2 |
42.6 |
46.6 |
52.1 |
53.9 |
46.6 |
53.2 |
59.6 |
综合得分 |
50.8 |
50.2 |
49.9 |
52.6 |
62.3 |
61.2 |
55.9 |
62.6 |
68.4 |
🏗️ 模型训练详情
参数 |
值 |
批大小 |
16 |
优化器 |
AdamW |
学习率 |
5e-5 |
训练步数 |
100k |
损失函数 |
交叉熵损失 |
框架 |
PyTorch & Transformers |
📜 许可证
Spec-Vision-V1采用MIT许可证发布。
📖 引用
如在研究或应用中使用Spec-Vision-V1,请引用:
@article{SpecVision2025,
title={Spec-Vision-V1: 视觉语言Transformer模型},
author={SVECTOR},
year={2025},
journal={SVECTOR研究}
}
📬 联系方式
如需支持或咨询,请联系SVECTOR: