P

Phi 3.5 Vision Instruct

由 microsoft 开发
Phi-3.5-vision 是一款轻量级、前沿的开放多模态模型,支持128K上下文长度,专注于高质量、富含推理的文本和视觉数据。
下载量 397.38k
发布时间 : 8/16/2024
模型介绍
内容详情
替代品

模型简介

该模型属于Phi-3模型家族,支持多模态输入,适用于图像理解、OCR、图表和表格理解等任务,经过监督微调和直接偏好优化以确保精确的指令遵循和安全措施。

模型特点

多模态支持
支持图像和文本的联合处理,能够理解视觉内容并生成相关文本响应。
长上下文支持
支持128K的上下文长度(以token计),适合处理长文档或多图像输入。
轻量级设计
针对内存和计算受限的环境优化,适合延迟敏感的场景。
多帧图像理解
支持多图像比较、摘要和视频片段理解,适用于复杂的视觉任务。

模型能力

通用图像理解
光学字符识别(OCR)
图表和表格理解
多图像比较
多图像或视频片段摘要
文本生成

使用案例

办公场景
幻灯片摘要
自动分析并总结PPT幻灯片内容。
可处理多达20帧的连续幻灯片输入。
文档理解
解析包含文本和图像的复杂文档。
在TextVQA基准测试中达到72.0的准确率。
视觉推理
图像比较
比较多张图像的相似性和差异性。
在BLINK基准测试的视觉相似性任务中达到83.0分。
视频摘要
从视频片段中提取关键信息并生成摘要。
在Video-MME基准测试中短视频处理达到60.8分。