Eagle X5 34B Chat

由 NVEagle 开发

Eagle是一系列以视觉为中心的高分辨率多模态大语言模型，通过混合不同架构和知识领域的视觉编码器增强多模态LLM的感知能力。

图像生成文本

Transformers

#高分辨率多模态 #混合视觉编码器 #文档理解优化

下载量 195

发布时间 : 9/14/2024

模型介绍

内容详情

替代品

模型简介

Eagle模型通过混合ViT/卷积网络等不同架构的视觉编码器，支持超过1K输入分辨率，在多模态LLM基准测试中表现优异，尤其在光学字符识别和文档理解等分辨率敏感任务上。

模型特点

高分辨率支持

支持超过1K输入分辨率，在光学字符识别和文档理解等分辨率敏感任务上表现优异。

混合视觉编码器

通过混合ViT/卷积网络等不同架构和知识领域的视觉编码器，增强多模态LLM的感知能力。

多模态能力

结合视觉和文本信息，实现图像理解和文本生成的多模态任务。

模型能力

图像理解

文本生成

光学字符识别

文档理解

使用案例

文档处理

文档理解

解析和理解高分辨率文档中的文本和结构信息。

在多模态LLM基准测试中表现优异。

图像分析

图像描述生成

根据输入的图像生成详细的文本描述。

许可协议：cc-by-nc-sa-4.0
库名称：transformers
任务标签：图像文本到文本
标签：

Eagle
VLM

Eagle模型卡

模型详情

模型类型：
Eagle是一系列以视觉为中心的高分辨率多模态大语言模型。该模型通过混合不同架构（ViT/卷积网络）和知识领域（检测/分割/OCR/自监督学习）的视觉编码器，全面探索了如何增强多模态LLM的感知能力。其采用基于通道拼接的"CLIP+X"融合机制，支持超过1K输入分辨率，在多模态LLM基准测试中表现优异，尤其在光学字符识别和文档理解等分辨率敏感任务上。

论文及资源：
GitHub
arXiv | 演示 | Huggingface

@article{shi2024eagle,  
    title = {Eagle: Exploring The Design Space for Multimodal LLMs with Mixture of Encoders},  
    author={Min Shi et al.},  
    journal={arXiv:2408.15998},  
    year={2024}  
}

许可

代码遵循Apache 2.0许可
预训练权重采用CC-BY-NC-SA-4.0许可
服务为研究预览版，仅限非商业用途，需遵守：
- LLaMA的模型许可
- OpenAI生成数据的使用条款
- 训练所用各数据集的许可协议

问题反馈：
https://github.com/NVlabs/Eagle/issues

模型架构

架构类型： Transformer

输入

输入类型： 图像、文本

输入格式： RGB三通道；字符串

输出

输出类型： 文本

输出格式： 字符串

推理示例

import os  
import torch  
from eagle import conversation as conversation_lib  
from eagle.model.builder import load_pretrained_model  
from PIL import Image  

# 初始化模型  
model_path = "NVEagle/Eagle-X5-13B-Chat"  
tokenizer, model, image_processor, _ = load_pretrained_model(model_path, None, get_model_name_from_path(model_path), False, False)  

# 处理输入  
image = Image.open("assets/georgia-tech.jpeg").convert('RGB')  
image_tensor = process_images([image], image_processor, model.config)[0]  
input_prompt = f"{DEFAULT_IMAGE_TOKEN}\nDescribe this image."  

# 生成输出  
with torch.inference_mode():  
    output_ids = model.generate(  
        input_ids=tokenizer_image_token(input_prompt, tokenizer).cuda(),  
        images=image_tensor.half().cuda().unsqueeze(0),  
        max_new_tokens=256  
    )  

print(tokenizer.decode(output_ids[0], skip_special_tokens=True))