许可证:MIT
许可证链接:https://huggingface.co/microsoft/Phi-4-multimodal-instruct/resolve/main/LICENSE
支持语言:
- 多语言
- 阿拉伯语(ar)
- 中文(zh)
- 捷克语(cs)
- 丹麦语(da)
- 荷兰语(nl)
- 英语(en)
- 芬兰语(fi)
- 法语(fr)
- 德语(de)
- 希伯来语(he)
- 匈牙利语(hu)
- 意大利语(it)
- 日语(ja)
- 韩语(ko)
- 挪威语(no)
- 波兰语(pl)
- 葡萄牙语(pt)
- 俄语(ru)
- 西班牙语(es)
- 瑞典语(sv)
- 泰语(th)
- 土耳其语(tr)
- 乌克兰语(uk)
标签:
- 自然语言处理(nlp)
- 代码(code)
- 音频(audio)
- 自动语音识别(automatic-speech-recognition)
- 语音摘要(speech-summarization)
- 语音翻译(speech-translation)
- 视觉问答(visual-question-answering)
- Phi-4多模态(phi-4-multimodal)
- Phi系列(phi)
- Phi-4迷你版(phi-4-mini)
示例组件:
- 示例标题:Librispeech样本1
音频源:https://cdn-media.huggingface.co/speech_samples/sample1.flac
- 示例标题:Librispeech样本2
音频源:https://cdn-media.huggingface.co/speech_samples/sample2.flac
- 消息示例:
- 角色:用户
内容:将音频转录为文本,然后翻译为法语。使用作为原始转录和翻译之间的分隔符。
库名称:transformers
论文链接:https://arxiv.org/abs/2503.01743
🎉Phi-4系列:
[迷你推理版 | 推理版] |
[多模态指令版 | ONNX版];
[迷你指令版 | ONNX版]
模型概述
Phi-4-multimodal-instruct是一个轻量级的开源多模态基础模型,融合了Phi-3.5和4.0模型的语言、视觉和语音研究及数据集。该模型支持文本、图像和音频输入,生成文本输出,并具备128K token的上下文长度。通过监督微调、直接偏好优化和基于人类反馈的强化学习(RLHF)的增强流程,模型在指令遵循精确性和安全措施方面表现优异。
各模态支持的语言如下:
- 文本:阿拉伯语、中文、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、德语、希伯来语、匈牙利语、意大利语、日语、韩语、挪威语、波兰语、葡萄牙语、俄语、西班牙语、瑞典语、泰语、土耳其语、乌克兰语
- 视觉:英语
- 音频:英语、中文、德语、法语、意大利语、日语、西班牙语、葡萄牙语
📰 Phi-4多模态微软博客
📖 Phi-4多模态技术报告
🏡 Phi门户
👩🍳 Phi教程库
🖥️ 试用平台:Azure、GitHub、Nvidia、Huggingface
📱 Huggingface Spaces:思维整理器、故事活化器、语音翻译器
观看Phi-4多模态如何通过语音分析帮助规划西雅图之旅,展示其先进的音频处理和推荐能力。
了解Phi-4多模态如何通过视觉输入解决复杂数学问题,展示其处理和解算图像中方程的能力。
探索Phi-4迷你版如何作为智能代理,在复杂场景中展示其推理和任务执行能力。
预期用途
主要用例
该模型适用于广泛的商业和研究用途,支持多语言和多模态场景。其设计目标包括:
- 内存/计算受限环境
- 延迟敏感场景
- 强大的推理能力(尤其是数学和逻辑)
- 功能和工具调用
- 通用图像理解
- 光学字符识别
- 图表和表格理解
- 多图像对比
- 多图像或视频片段摘要
- 语音识别
- 语音翻译
- 语音问答
- 语音摘要
- 音频理解
该模型旨在加速语言和多模态模型的研究,作为生成式AI功能的构建模块。
使用注意事项
该模型并非为所有下游用途专门设计或评估。开发者在选择用例时需考虑语言模型的常见限制,并在高风险场景中评估和缓解准确性、安全性和公平性问题。开发者应遵守适用于其用例的法律法规(包括隐私、贸易合规等)。
本模型卡片中的内容不应被解释为对模型发布许可证的限制或修改。
发布说明
此版本的Phi-4-multimodal-instruct基于Phi-3系列用户的宝贵反馈。此前,用户需通过两个模型的流水线实现语音识别功能:一个模型转录音频为文本,另一个模型处理语言或视觉任务。这种流水线导致核心模型无法直接观察完整输入信息(如多说话者、背景噪音等)。
Phi-4-multimodal-instruct通过单一神经网络处理所有输入和输出,采用新架构、更大的词汇表、多语言和多模态支持,以及更优的训练后技术,显著提升了多模态能力。预计该模型将极大惠及应用开发者和多样化用例。感谢对Phi-4系列的热情支持,欢迎反馈以推动模型持续改进!
模型质量
点击查看详情
为评估模型能力,Phi-4-multimodal-instruct在内部基准平台(详见附录A)上与多组模型进行了对比。语言基准详情可参考Phi-4-Mini-Instruct模型卡片。以下是语音和视觉代表性基准的高层概览:
语音
Phi-4-multimodal-instruct表现如下:
- 在自动语音识别(ASR)和语音翻译(ST)任务中超越专家模型WhisperV3和SeamlessM4T-v2-Large。
- 以6.14%的词错误率位列Huggingface OpenASR排行榜首位(截至2025年3月4日)。
- 是首个支持语音摘要的开源模型,性能接近GPT4o。
- 在语音问答任务上与Gemini-1.5-Flash和GPT-4o-realtime-preview等模型存在差距,后续版本将改进此能力。
语音识别(数值越低越好)
模型在聚合基准数据集上的表现:

按语言划分的性能(CommonVoice和FLEURS的平均WER):

语音翻译(数值越高越好)
从德语、西班牙语、法语、意大利语、日语、葡萄牙语、中文翻译为英语:

从英语翻译为上述语言(WhisperV3不支持此功能):

语音摘要(数值越高越好)

语音问答
MT Bench分数缩放10倍以匹配MMMLU范围:

音频理解
AIR Bench分数缩放10倍以匹配MMAU范围:

视觉
视觉-语音任务
Phi-4-multimodal-instruct能同时处理图像和音频。下表显示在图表/表格理解和文档推理任务中使用合成语音查询时的模型质量。与其他支持音频和视觉输入的先进模型相比,Phi-4-multimodal-instruct在多项基准中表现更优。
基准 |
Phi-4-multimodal-instruct |
InternOmni-7B |
Gemini-2.0-Flash-Lite-prv-02-05 |
Gemini-2.0-Flash |
Gemini-1.5-Pro |
s_AI2D |
68.9 |
53.9 |
62.0 |
69.4 |
67.7 |
s_ChartQA |
69.0 |
56.1 |
35.5 |
51.3 |
46.9 |
s_DocVQA |
87.3 |
79.9 |
76.0 |
80.3 |
78.2 |
s_InfoVQA |
63.7 |
60.3 |
59.4 |
63.6 |
66.1 |
平均 |
72.2 |
62.6 |
58.2 |
66.2 |
64.7 |
视觉任务
通过零样本基准对比,Phi-4-multimodal-instruct在代表性任务中的表现如下:
数据集 |
Phi-4-multimodal-ins |
Phi-3.5-vision-ins |
Qwen 2.5-VL-3B-ins |
Intern VL 2.5-4B |
Qwen 2.5-VL-7B-ins |
Intern VL 2.5-8B |
Gemini 2.0-Flash Lite-preview-0205 |
Gemini2.0-Flash |
Claude-3.5-Sonnet-2024-10-22 |
Gpt-4o-2024-11-20 |
流行聚合基准 |
|
|
|
|
|
|
|
|
|
|
MMMU |
55.1 |
43.0 |
47. |
|
|
|
|
|
|
|