P

Phi 3.5 Vision Instruct

由 FriendliAI 开发
Phi-3.5-vision是一款轻量级、先进的开源多模态模型,支持128K上下文长度,专注于高质量、富含推理的文本和视觉数据处理。
下载量 370
发布时间 : 3/4/2025

模型简介

基于Phi-3模型家族的多模态版本,经过严格增强过程,结合监督微调与直接偏好优化,确保精确遵循指令和强大的安全措施。

模型特点

多模态支持
同时处理文本和图像输入,支持多帧图像理解和推理
长上下文处理
支持128K token的上下文长度,适合处理长文档和多图像输入
轻量高效
针对内存/计算受限环境和低延迟场景优化
安全对齐
经过严格的安全后训练,减少有害内容生成风险

模型能力

通用图像理解
光学字符识别
图表和表格理解
多图像比较
多图像或视频剪辑摘要
文本生成
视觉推理

使用案例

办公自动化
幻灯片摘要
自动分析并总结演示文稿内容
能够准确提取关键信息并生成简洁摘要
文档理解
解析PDF、PPT等文档中的文字和图表
在TextVQA基准测试中达到72.0分
教育
科学问题解答
回答基于图像的科学问题
在ScienceQA测试集上达到91.3%准确率
数学推理
解决视觉数学问题
在MathVista测试集上达到43.9分
内容分析
视频摘要
生成短视频内容的摘要
在Video-MME基准测试中短视频处理得分60.8
图像比较
分析多张图像的相似与差异
在多视图推理任务中得分54.1
AIbase
智启未来,您的人工智能解决方案智库
简体中文