P

PE Lang G14 448

由 facebook 开发
感知编码器是通过视觉语言训练实现的最先进图像视频理解编码器,具有强大的泛化能力。
下载量 247
发布时间 : 4/11/2025
模型介绍
内容详情
替代品

模型简介

感知编码器(PE)是一系列在各类视觉任务中表现卓越的大规模视觉编码模型,通过对比预训练和合成对齐视频微调,实现卓越的分类检索和下游任务泛化能力。

模型特点

强大的泛化能力
PE内部生成的特征具有强大的泛化能力,可扩展至多种下游任务。
语言对齐优化
PE语言版特别优化了通用性,适用于多模态语言建模的各种场景。
卓越的文档处理能力
在OCR和文档任务中表现尤为突出。

模型能力

图像理解
视频理解
文档问答
信息问答
文本问答
多模态语言建模

使用案例

文档处理
文档问答
用于回答基于文档内容的问题
在测试集上达到94.6的准确率
视觉问答
信息问答
回答基于图像或视频内容的问题
在测试集上达到78.8的准确率
多模态理解
感知测试
评估模型对视觉内容的理解能力
在测试集上达到82.7的准确率