Phi-4-multimodal-instruct-onnx多模态模型 - 开源免费支持文图音输入，加速推理

首页

Phi 4 Multimodal Instruct Onnx

由 microsoft 开发

Phi-4多模态模型的ONNX版本，已量化为int4精度，通过ONNX Runtime加速推理，支持文本、图像和音频输入。

多模态融合其他开源协议:MIT #多模态指令理解 #ONNX量化加速 #跨模态交互

下载量 159

发布时间 : 2/25/2025

模型简介

这是一个轻量级开源多模态基础模型，结合了Phi-3.5和4.0模型的语言、视觉和语音研究，支持128K token的上下文长度。

模型特点

多模态支持

支持处理文本、图像和音频输入，生成文本输出。

高效推理

已量化为int4精度，通过ONNX Runtime加速推理。

长上下文支持

支持128K token的上下文长度。

轻量级

轻量级开源多模态基础模型，适合多种应用场景。

模型能力

文本生成

图像分析

语音识别

语音摘要

语音翻译

视觉问答

使用案例

语音处理

自动语音识别

将语音转换为文本。

语音摘要

生成语音内容的摘要。

语音翻译

将语音内容翻译为其他语言。

视觉处理

视觉问答

根据图像内容回答问题。

🚀 Phi-4 多模态指令 ONNX 模型

这是一个 Phi-4 多模态模型的 ONNX 版本，该模型被量化为 int4 精度，以加速使用 ONNX Runtime 进行推理。

🚀 快速开始

模型运行

CPU 运行

请持续关注，或按照本教程为 CPU 生成你自己的 ONNX 模型！

CUDA 运行

# 使用 Hugging Face CLI 直接下载模型
huggingface-cli download microsoft/Phi-4-multimodal-instruct-onnx --include gpu/* --local-dir .

# 安装 ONNX Runtime GenAI 的 CUDA 包
pip install --pre onnxruntime-genai-cuda

# 请相应地调整模型目录 (-m) 
curl https://raw.githubusercontent.com/microsoft/onnxruntime-genai/main/examples/python/phi4-mm.py -o phi4-mm.py
python phi4-mm.py -m gpu/gpu-int4-rtn-block-32 -e cuda

DirectML 运行

# 使用 Hugging Face CLI 直接下载模型
huggingface-cli download microsoft/Phi-4-multimodal-instruct-onnx --include gpu/* --local-dir .

# 安装 ONNX Runtime GenAI 的 DML 包
pip install --pre onnxruntime-genai-directml

# 请相应地调整模型目录 (-m) 
curl https://raw.githubusercontent.com/microsoft/onnxruntime-genai/main/examples/python/phi4-mm.py -o phi4-mm.py
python phi4-mm.py -m gpu/gpu-int4-rtn-block-32 -e dml

运行时，系统会提示你提供任何图像、音频和一个提示信息。

文本组件的性能与 Phi-4 迷你 ONNX 模型类似。

📚 详细文档

模型描述

属性	详情
模型类型	ONNX
开发者	微软
许可证	MIT
模型说明	这是一个为 ONNX Runtime 推理而转换的 Phi4 多模态模型。

免责声明：该模型仅是对基础模型的优化，与模型相关的任何风险由模型使用者承担。请针对你的场景进行验证和测试。应用优化后，输出结果可能与基础模型略有差异。

基础模型

Phi-4-multimodal-instruct 是一个轻量级的开放多模态基础模型，它利用了用于 Phi-3.5 和 4.0 模型的语言、视觉和语音研究及数据集。该模型可以处理文本、图像和音频输入，生成文本输出，并具有 128K 标记的上下文长度。该模型经过了增强处理，结合了监督微调（supervised fine-tuning）和直接偏好优化（direct preference optimization），以支持精确的指令遵循和安全措施。

详情请见此处。