P

Phi 4 Multimodal Instruct

由 microsoft 开发
Phi-4-multimodal-instruct是一款轻量级开源多模态基础模型,融合了Phi-3.5和4.0模型的语言、视觉及语音研究数据。支持文本、图像和音频输入,生成文本输出,并具备128K token的上下文长度。
下载量 584.02k
发布时间 : 2/24/2025
模型介绍
内容详情
替代品

模型简介

该模型支持多语言和多模态输入,适用于文本、视觉和音频处理任务,特别适合内存/计算受限环境和低延迟场景。

模型特点

多模态支持
支持文本、图像和音频输入,生成文本输出,统一处理多模态信息。
多语言能力
支持多种语言的文本处理和语音识别/翻译。
轻量级设计
适合内存/计算受限环境和低延迟场景。
强推理能力
在数学与逻辑推理方面表现优异。
函数与工具调用
支持函数调用和工具集成。

模型能力

文本生成
图像理解
语音识别
语音翻译
语音摘要
音频理解
视觉问答
光学字符识别
图表与表格理解
多图像对比
多图像或视频片段摘要

使用案例

语音处理
语音转录
将音频转录为文本
词错误率低至6.14%
语音翻译
将语音翻译为其他语言
支持多种语言互译
语音摘要
生成语音内容的摘要
性能接近GPT4o
视觉处理
视觉问答
回答关于图像内容的问题
在多项基准中表现优异
数学问题求解
通过图像输入解决数学问题
展示图像方程处理与求解能力
智能代理
任务执行
在复杂场景中展示推理与任务执行能力
作为智能代理处理多模态输入