AKI-4B-phi-3.5-mini开源多模态基础模型 - 解决视语错位问题无需额外成本

首页

AKI 4B Phi 3.5 Mini

由 Sony 开发

AKI是一种多模态基础模型，通过解锁LLM中的因果注意力机制实现跨模态互注意力(MMA)，解决视觉语言错位问题，无需增加额外参数和训练时间。

图像生成文本

Safetensors

英语#跨模态互注意力 #零样本视觉理解 #多模态因果推理

下载量 25

发布时间 : 3/12/2025

模型简介

该模型整合视觉与文本模态信息，实现图像到文本的转换，特别擅长视觉场景理解和多模态推理任务。

模型特点

跨模态互注意力(MMA)

通过解锁LLM中的因果注意力机制，使视觉模态能够整合文本模态信息，解决视觉语言错位问题

零参数增加

创新架构设计在不增加额外参数和训练时间的情况下实现多模态融合

多任务适配

在12个基准数据集上进行指令微调，支持广泛的视觉语言任务

模型能力

图像场景描述

视觉问答

多模态推理

图像OCR理解

医学图像分析

3D视觉理解

使用案例

智能助手

图像场景描述

自动生成对图片内容的详细文字描述

示例输出：图片展现了公园秋日美景，小径铺满缤纷落叶...

医疗辅助

多模态诊疗

分析医学影像并生成诊断建议

在评估中达到40.8%的准确率（AKI-4B版本）

教育科技

数学视觉问题解答

解析包含数学公式的图表并解答相关问题

在数学视觉评估中达到32.1%准确率（AKI-4B版本）

🚀 AKI模型卡片

AKI是论文“Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs”的官方检查点。AKI是一个多模态基础模型，它将大语言模型（LLM）中的因果注意力转化为模态互注意力（MMA），使早期模态（图像）能够整合后期模态（文本）的信息，从而在不引入额外参数和增加训练时间的情况下解决视觉 - 语言对齐问题。

📚 详细文档

模型描述

视觉编码器：google/siglip-so400m-patch14-384
视觉 - 语言连接器：Perceiver Resampler
语言解码器（LLM）：microsoft/Phi-3.5-mini-instruct
预训练数据集：Blip3-kale 和 Blip3-OCR-200m
监督微调（SFT）数据集：VQAv2、GQA、VSR、OCRVQA、A - OKVQA、ScienceQA、RefCOCO、RefCOCOg、RefCOCO+、VisualGnome、LLaVA - 150k

模型来源

代码仓库：GitHub
论文链接：arXiv

💻 使用示例

输入格式

鉴于训练数据的性质，AKI模型最适合使用以下聊天格式的提示：

<|system|>
A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.<|end|>
<|user|>
<image>
Describe the scene of this image.
<|end|>
<|assistant|>

图像捕捉到了公园中一个美丽的秋日，一条小径上铺满了色彩斑斓的落叶。树叶呈现出红、橙、黄、棕等各种色调，营造出温暖而多彩的氛围。小径两旁的树木展示着美丽的秋叶，增添了如画的景致。...

推理示例

请参考 notebook 进行零样本推理。要构建本地演示网站，请参考 local_demo.py。

有关训练脚本，请参考 GitHub 仓库。

📊 评估结果

相同配置下的主要对比（表1）

	MME^P	MME^C	MMB	SEED^I	LLaVA^W	MMMU	MathV^mini	POPE	MM - Vet	RealWorldQA	CV - Bench^2D	CV - Bench^3D
(I&T)_PT + (I&T)_SFT	1226.3	258.2	64.9	64.1	47.0	31.1	24.2	79.8	24.3	50.6	45.2	54.3
CCA [Xing et al., 2024]	1212.7	243.6	67.4	65.3	54.0	34.6	25.6	81.9	29.0	52.7	56.0	62.8
(w/o T&I)_PT	1046.3	226.4	31.7	45.1	38.1	27.2	23.8	65.0	17.2	40.1	53.2	54.8
(w/o I&T)_PT	1013.2	208.6	32.0	43.3	37.9	27.7	22.4	70.4	20.6	39.5	55.4	53.0
(w/o T&I)_SFT	1194.8	289.3	58.5	61.1	40.2	28.0	21.9	79.0	22.8	47.8	41.4	63.0
(w/o I&T)_SFT	1166.2	264.3	58.4	60.8	36.9	26.7	23.1	76.8	20.4	46.9	43.3	61.2
DOT (Ours)	1267.8	251.4	43.8	54.7	47.5	30.7	25.6	82.7	25.0	50.5	52.2	58.1
MMA (Ours)	1363.7	315.4	71.8	67.1	59.6	37.3	26.4	82.7	30.2	52.3	57.8	64.1
改进率	10.9%	29.5%	4.3%	2.8%	10.4%	7.8%	3.1%	1%	4.1%	-	3.2%	2.1%

AKI - 4B（表2）

	MME^P	MME^C	MMB	SEED^I	LLaVA^W	MMMU	MathV^mini	POPE	MM - Vet	RealWorldQA	CV - Bench^2D	CV - Bench^3D
AKI - 4B	1491.9	362.9	73.1	69.4	74.6	38.7	32.1	86.9	40.8	58.9	62.1	71.8

⚖️ 伦理考量

注意：本节内容主要取自 xgen - mm 模型。

本次发布仅用于支持学术论文的研究目的。我们的模型、数据集和代码并非专门为所有下游用途而设计或评估。我们强烈建议用户在部署此模型之前，评估并解决与准确性、安全性和公平性相关的潜在问题。我们鼓励用户考虑人工智能的常见局限性，遵守适用法律，并在选择用例时采用最佳实践，特别是在错误或滥用可能对人们的生活、权利或安全产生重大影响的高风险场景中。

📄 许可证

我们的代码和权重遵循 CC - BY - NC 4.0 许可证发布。

预训练和微调数据的版权归原始数据所有者所有。

📚 引用

@misc{wywang2025AKI,
      title={Seeing is Understanding: Unlocking Causal Attention into Modality-Mutual Attention for Multimodal LLMs}, 
      author={Wei-Yao Wang and Zhao Wang and Helen Suzuki and Yoshiyuki Kobayashi},
      year={2025},
      eprint={2503.02597},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2503.02597}, 
}