🚀 AKI模型卡片
AKI是论文“Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs”的官方检查点。AKI是一个多模态基础模型,它将大语言模型(LLM)中的因果注意力转化为模态互注意力(MMA),使早期模态(图像)能够整合后期模态(文本)的信息,从而在不引入额外参数和增加训练时间的情况下解决视觉 - 语言对齐问题。
📚 详细文档
模型描述
模型来源
💻 使用示例
输入格式
鉴于训练数据的性质,AKI模型最适合使用以下聊天格式的提示:
<|system|>
A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.<|end|>
<|user|>
<image>
Describe the scene of this image.
<|end|>
<|assistant|>
图像捕捉到了公园中一个美丽的秋日,一条小径上铺满了色彩斑斓的落叶。树叶呈现出红、橙、黄、棕等各种色调,营造出温暖而多彩的氛围。小径两旁的树木展示着美丽的秋叶,增添了如画的景致。...
推理示例
请参考 notebook 进行零样本推理。
要构建本地演示网站,请参考 local_demo.py。
有关训练脚本,请参考 GitHub 仓库。
📊 评估结果
相同配置下的主要对比(表1)
|
MMEP |
MMEC |
MMB |
SEEDI |
LLaVAW |
MMMU |
MathVmini |
POPE |
MM - Vet |
RealWorldQA |
CV - Bench2D |
CV - Bench3D |
(I&T)PT + (I&T)SFT |
1226.3 |
258.2 |
64.9 |
64.1 |
47.0 |
31.1 |
24.2 |
79.8 |
24.3 |
50.6 |
45.2 |
54.3 |
CCA [Xing et al., 2024] |
1212.7 |
243.6 |
67.4 |
65.3 |
54.0 |
34.6 |
25.6 |
81.9 |
29.0 |
52.7 |
56.0 |
62.8 |
(w/o T&I)PT |
1046.3 |
226.4 |
31.7 |
45.1 |
38.1 |
27.2 |
23.8 |
65.0 |
17.2 |
40.1 |
53.2 |
54.8 |
(w/o I&T)PT |
1013.2 |
208.6 |
32.0 |
43.3 |
37.9 |
27.7 |
22.4 |
70.4 |
20.6 |
39.5 |
55.4 |
53.0 |
(w/o T&I)SFT |
1194.8 |
289.3 |
58.5 |
61.1 |
40.2 |
28.0 |
21.9 |
79.0 |
22.8 |
47.8 |
41.4 |
63.0 |
(w/o I&T)SFT |
1166.2 |
264.3 |
58.4 |
60.8 |
36.9 |
26.7 |
23.1 |
76.8 |
20.4 |
46.9 |
43.3 |
61.2 |
DOT (Ours) |
1267.8 |
251.4 |
43.8 |
54.7 |
47.5 |
30.7 |
25.6 |
82.7 |
25.0 |
50.5 |
52.2 |
58.1 |
MMA (Ours) |
1363.7 |
315.4 |
71.8 |
67.1 |
59.6 |
37.3 |
26.4 |
82.7 |
30.2 |
52.3 |
57.8 |
64.1 |
改进率 |
10.9% |
29.5% |
4.3% |
2.8% |
10.4% |
7.8% |
3.1% |
1% |
4.1% |
- |
3.2% |
2.1% |
AKI - 4B(表2)
|
MMEP |
MMEC |
MMB |
SEEDI |
LLaVAW |
MMMU |
MathVmini |
POPE |
MM - Vet |
RealWorldQA |
CV - Bench2D |
CV - Bench3D |
AKI - 4B |
1491.9 |
362.9 |
73.1 |
69.4 |
74.6 |
38.7 |
32.1 |
86.9 |
40.8 |
58.9 |
62.1 |
71.8 |
⚖️ 伦理考量
注意:本节内容主要取自 xgen - mm 模型。
本次发布仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游用途而设计或评估。我们强烈建议用户在部署此模型之前,评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性,遵守适用法律,并在选择用例时采用最佳实践,特别是在错误或滥用可能对人们的生活、权利或安全产生重大影响的高风险场景中。
📄 许可证
我们的代码和权重遵循 CC - BY - NC 4.0 许可证发布。
预训练和微调数据的版权归原始数据所有者所有。
📚 引用
@misc{wywang2025AKI,
title={Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs},
author={Wei-Yao Wang and Zhao Wang and Helen Suzuki and Yoshiyuki Kobayashi},
year={2025},
eprint={2503.02597},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2503.02597},
}