P

Phi 3 Vision 128k Instruct

由 microsoft 开发
Phi-3-Vision-128K-Instruct是一个轻量级、前沿的开放多模态模型,支持128K令牌的上下文长度,专注于文本和视觉领域的高质量推理。
下载量 25.19k
发布时间 : 5/19/2024
模型介绍
内容详情
替代品

模型简介

该模型属于Phi-3系列,支持多模态输入(文本和图像),适用于英语环境下的商业和研究用途,特别适合内存/计算受限的环境和延迟敏感的场景。

模型特点

多模态支持
支持文本和图像输入,能够理解图像内容并生成相关文本描述。
长上下文支持
支持128K令牌的上下文长度,适合处理长文本和复杂任务。
轻量级设计
模型参数规模适中,适合内存/计算受限的环境和延迟敏感的场景。
高质量训练数据
训练数据涵盖合成数据和经过筛选的公开网站内容,聚焦于高质量、高推理密度的数据。

模型能力

文本生成
图像理解
光学字符识别(OCR)
图表和表格理解

使用案例

通用图像理解
图像描述生成
根据输入的图像生成详细的文本描述。
生成准确且详细的图像描述,适用于无障碍应用和内容管理。
文档处理
图表理解
解析图表中的信息并生成总结或分析。
能够准确识别图表中的数据和趋势,生成有用的分析报告。
表格理解
从表格中提取信息并生成结构化数据或总结。
高效提取表格数据,适用于数据分析和报告生成。
商业应用
会议准备分析
分析会议准备情况的图表数据,生成总结和建议。
提供深刻的讨论问题和建议,帮助改进会议效率。