E

Eagle X5 34B Chat

由 NVEagle 开发
Eagle是一系列以视觉为中心的高分辨率多模态大语言模型,通过混合不同架构和知识领域的视觉编码器增强多模态LLM的感知能力。
下载量 195
发布时间 : 9/14/2024
模型介绍
内容详情
替代品

模型简介

Eagle模型通过混合ViT/卷积网络等不同架构的视觉编码器,支持超过1K输入分辨率,在多模态LLM基准测试中表现优异,尤其在光学字符识别和文档理解等分辨率敏感任务上。

模型特点

高分辨率支持
支持超过1K输入分辨率,在光学字符识别和文档理解等分辨率敏感任务上表现优异。
混合视觉编码器
通过混合ViT/卷积网络等不同架构和知识领域的视觉编码器,增强多模态LLM的感知能力。
多模态能力
结合视觉和文本信息,实现图像理解和文本生成的多模态任务。

模型能力

图像理解
文本生成
光学字符识别
文档理解

使用案例

文档处理
文档理解
解析和理解高分辨率文档中的文本和结构信息。
在多模态LLM基准测试中表现优异。
图像分析
图像描述生成
根据输入的图像生成详细的文本描述。