许可协议: mit
许可链接: https://huggingface.co/microsoft/Phi-3.5-vision-instruct/resolve/main/LICENSE
支持语言:
- 多语言
任务类型: 图像文本生成
标签:
- 自然语言处理
- 代码
- 视觉
推理参数:
温度值: 0.7
示例输入:
- 消息:
- 角色: 用户
内容: <|image_1|>你能描述图片中的内容吗?
库名称: transformers
模型概述
Phi-3.5-vision 是一款轻量级、前沿的开放多模态模型,其训练数据包含合成数据及经过筛选的公开网站内容,特别注重高质量、富含推理密度的文本与视觉数据。该模型属于 Phi-3 系列,多模态版本支持 128K 上下文长度(以 token 计)。模型经过严格的优化流程,结合监督微调(SFT)和直接偏好优化(DPO),确保精准遵循指令并具备强大的安全措施。
🏡 Phi-3 门户
📰 Phi-3 微软博客
📖 Phi-3 技术报告
👩🍳 Phi-3 使用指南
🖥️ 立即体验
Phi-3.5 系列:
[mini-instruct];
[MoE-instruct];
[vision-instruct]
适用场景
主要用例
本模型适用于英语环境的广泛商业和研究用途,特别适合需要视觉与文本输入能力的通用 AI 系统和应用场景,包括:
- 内存/计算资源受限环境
- 低延迟需求场景
- 通用图像理解
- 光学字符识别(OCR)
- 图表与表格解析
- 多图像对比
- 多图或视频片段摘要
本模型旨在加速语言与多模态模型研究,作为生成式 AI 功能的构建模块。
使用注意事项
本模型并非为所有下游任务专门设计或评估。开发者在选择应用场景时需考虑语言模型的常见限制,并在高风险场景中预先评估和修正准确性、安全性与公平性。开发者应了解并遵守适用法律法规(如隐私、贸易合规等)。
本模型卡内容不得解释为对模型所适用许可协议的任何限制或修改。
版本说明
本次更新基于用户反馈增强了多帧图像理解与推理能力,核心功能包括:
- 精细化图像对比
- 多图摘要/故事生成
- 视频摘要(尤其适用于 Office 场景)
单图像基准性能亦有提升,例如:
- MMMU 分数从 40.2 提升至 43.0
- MMBench 分数从 80.5 提升至 81.9
- 文档理解基准 TextVQA 从 70.9 提升至 72.0
我们相信多数场景将受益于此版本,但仍建议用户在实际应用中测试新模型。感谢社区对 Phi-3 系列的热情支持,欢迎持续反馈。
以下为多图像基准测试对比结果(平均表现优于同尺寸竞品,并与更大模型的多帧/视频摘要能力相当):
BLINK 基准(包含 14 项人类易解决但对当前多模态 LLM 仍具挑战的视觉任务):
测试项 |
Phi-3.5-vision |
LlaVA-7B |
InternVL-4B |
InternVL-8B |
Gemini-Flash |
GPT-4o-mini |
Claude-3.5 |
Gemini-Pro |
GPT-4o |
艺术风格识别 |
87.2 |
62.4 |
55.6 |
52.1 |
64.1 |
70.1 |
59.8 |
70.9 |
73.3 |
计数能力 |
54.2 |
56.7 |
54.2 |
66.7 |
51.7 |
55.0 |
59.2 |
65.0 |
65.0 |
综合表现 |
57.0 |
53.1 |
45.9 |
45.4 |
45.8 |
51.9 |
56.5 |
61.0 |
63.2 |
Video-MME 基准(全面评估 MLLM 处理视频数据的能力):
视频时长 |
Phi-3.5-vision |
LlaVA-7B |
InternVL-4B |
InternVL-8B |
Gemini-Flash |
GPT-4o-mini |
Claude-3.5 |
Gemini-Pro |
GPT-4o |
短视频 (<2分钟) |
60.8 |
62.3 |
60.7 |
61.7 |
72.2 |
70.1 |
66.3 |
73.3 |
77.7 |
整体表现 |
50.8 |
50.2 |
49.9 |
52.6 |
62.3 |
61.2 |
55.9 |
62.6 |
68.4 |
使用方法
环境要求
验证 transformers
版本:pip list | grep transformers
必备组件示例:
flash_attn==2.5.8
numpy==1.24.4
Pillow==10.3.0
Phi-3.5-vision 亦可通过 Azure AI Studio 使用。
输入格式
最佳实践是采用以下对话格式:
单图输入:
<|user|>\n<|image_1|>\n{提示}<|end|>\n<|assistant|>\n
多图输入(索引从1开始):
<|user|>\n<|image_1|>\n<|image_2|>\n{提示}<|end|>\n<|assistant|>\n
本地加载
获取模型检查点后,参考以下推理代码:
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained(
"microsoft/Phi-3.5-vision-instruct",
device_map="cuda",
torch_dtype="auto"
)
注意:
- 多帧场景建议设置
num_crops=4
,单帧设为 16
- 禁用 flash_attention 可设置
_attn_implementation='eager'
责任AI考量
需注意的潜在限制包括:
- 服务质量:主要训练数据为英文,其他语言性能可能下降
- 偏见与刻板印象:可能强化负面社会偏见
- 内容适当性:可能生成不当内容,敏感场景需额外审查
- 信息可靠性:可能产生不准确或过时内容
- 代码局限性:主要支持 Python 常用包,其他语言需人工验证
开发者应遵循责任AI实践,并确保应用符合相关法律法规。高风险场景(如法律/医疗建议)需额外保障措施。
训练详情
架构:4.2B 参数,包含图像编码器、连接器、投影器和 Phi-3 Mini 语言模型
训练硬件:256 张 A100-80G
训练周期:6 天
训练数据:5000 亿 token(视觉+文本)
发布日期:2024 年 8 月
基准测试
关键指标对比(部分):
测试集 |
Phi-3.5-vision |
GPT-4o |
MMMU (val) |
43.0 |
61.78 |
TextVQA (val) |
72.0 |
75.6 |
安全评估
采用 SFT + RLHF 组合对齐技术,通过红队测试、对抗对话模拟等多方法评估安全风险。详见技术报告。
许可
模型采用 MIT 许可证。
商标声明
使用微软商标需遵守微软商标指南。第三方商标遵循相应政策。