E

Eagle X5 7B

由 NVEagle 开发
Eagle 是一系列以视觉为中心的高分辨率多模态大语言模型,支持高达1K以上的输入分辨率,在光学字符识别和文档理解等任务上表现出色。
下载量 918
发布时间 : 8/23/2024

模型简介

Eagle 通过混合视觉编码器和不同输入分辨率,探索增强多模态大语言模型的感知能力。采用基于通道拼接的'CLIP+X'融合方式,整合不同架构和知识领域的视觉专家。

模型特点

高分辨率处理
支持高达1K以上的输入分辨率,特别适合对分辨率敏感的任务如OCR和文档理解。
多模态融合
采用'CLIP+X'融合方式,整合不同架构(ViT/卷积网络)和知识领域(检测/分割/OCR/自监督学习)的视觉专家。
混合视觉编码器
通过混合视觉编码器和不同输入分辨率,全面探索增强多模态大语言模型的感知能力。

模型能力

图像理解
文本生成
光学字符识别
文档理解
多模态对话

使用案例

文档处理
文档内容理解
解析和理解扫描文档或PDF中的内容和结构
在文档理解任务中表现出色
图像描述
图像内容描述
根据输入图像生成详细的文本描述
能够准确描述图像内容和细节
AIbase
智启未来,您的人工智能解决方案智库
简体中文