E

Eagle2 9B

由 nvidia 开发
Eagle2-9B是NVIDIA发布的最新视觉语言模型(VLM),在性能和推理速度之间实现了完美平衡。它基于Qwen2.5-7B-Instruct语言模型和Siglip+ConvNext视觉模型构建,支持多语言和多模态任务。
下载量 944
发布时间 : 1/10/2025
模型介绍
内容详情
替代品

模型简介

Eagle2-9B是一个高性能的开源视觉语言模型,专注于从数据中心视角优化VLM后训练。它通过结合稳健的训练方案和模型设计,在多项基准测试中表现出色。

模型特点

高性能平衡
在8.9B参数规模下实现了性能与推理速度的完美平衡
多模态支持
支持文本、图像和视频输入,处理多种模态信息
长上下文处理
支持长达16K的上下文长度
基准测试领先
在多个视觉语言基准测试中表现优于同类模型

模型能力

图像理解
文本生成
多模态对话
文档问答
图表理解
视频分析

使用案例

文档处理
DocVQA文档问答
从文档图像中提取信息并回答问题
在DocVQA测试集上达到92.6分
视觉问答
TextVQA文本视觉问答
回答关于图像中文本内容的问题
在TextVQA验证集上达到83.0分
图表理解
ChartQA图表问答
理解和回答基于图表数据的问题
在ChartQA测试集上达到86.4分