E

Eagle X5 13B Chat

由 NVEagle 开发
鹰(Eagle)是一系列以视觉为中心的高分辨率多模态大语言模型,支持超过1K的输入分辨率,在光学字符识别和文档理解等任务上表现出色。
下载量 1,748
发布时间 : 8/23/2024

模型简介

该模型通过融合多种视觉编码器和不同输入分辨率来增强多模态大语言模型的感知能力,采用基于通道拼接的'CLIP+X'融合方式,融合不同架构和知识的视觉专家。

模型特点

多模态融合
采用基于通道拼接的'CLIP+X'融合方式,融合不同架构(ViT/卷积网络)和知识(检测/分割/OCR/自监督学习)的视觉专家。
高分辨率支持
支持超过1K的输入分辨率,在对分辨率敏感的任务上表现出色。

模型能力

图像理解
文本生成
光学字符识别
文档理解

使用案例

文档处理
文档内容理解
解析和理解高分辨率文档中的内容和结构
在高分辨率文档理解任务中表现优异
图像分析
复杂场景理解
分析包含丰富细节的高分辨率图像
在细节丰富的场景中保持高精度
AIbase
智启未来,您的人工智能解决方案智库
简体中文