Janus-Pro-7B开源模型 - 统一多模态理解与生成，高效处理多任务

首页

Janus Pro 7B

由 Athagi 开发

Janus-Pro 是一种新颖的自回归框架，统一了多模态理解和生成。它通过解耦视觉编码路径，使用单一的统一 Transformer 架构处理多模态任务。

文本生成图像

Transformers

开源协议:MIT #多模态统一模型 #视觉编码解耦 #自回归生成

下载量 15

发布时间 : 1/28/2025

模型简介

Janus-Pro 是一个统一理解和生成的多模态大语言模型（MLLM），它将多模态理解和生成的视觉编码解耦，增强了框架的灵活性。

模型特点

解耦视觉编码

将视觉编码解耦为独立路径，缓解了视觉编码器在理解和生成角色之间的冲突。

统一架构

使用单一的统一 Transformer 架构处理多模态任务，简化了模型结构。

高灵活性

解耦设计增强了框架的灵活性，使其能够适应多种多模态任务。

模型能力

多模态理解

文本到图像生成

图像分析

使用案例

多模态交互

图像描述生成

根据输入的图像生成详细的文本描述。

文本到图像生成

根据输入的文本生成相应的图像。

🚀 Janus - Pro：多模态统一理解与生成框架

Janus - Pro是一种新颖的自回归框架，它将多模态理解和生成进行了统一。该框架通过将视觉编码解耦为独立的路径，同时仍使用单一、统一的Transformer架构进行处理，解决了以往方法的局限性。这种解耦不仅缓解了视觉编码器在理解和生成任务中的冲突，还增强了框架的灵活性。Janus - Pro超越了以往的统一模型，其性能与特定任务模型相当甚至更优。其简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

GitHub仓库

✨ 主要特性

统一多模态理解和生成，采用新颖的自回归框架。
解耦视觉编码，缓解理解和生成任务的冲突，增强框架灵活性。
性能超越以往统一模型，与特定任务模型相当甚至更优。

📚 详细文档

模型概述

Janus - Pro是一个统一的理解和生成型多模态大语言模型（MLLM），它对多模态理解和生成的视觉编码进行了解耦。Janus - Pro基于DeepSeek - LLM - 1.5b - base/DeepSeek - LLM - 7b - base构建。

属性	详情
模型类型	统一理解和生成的多模态大语言模型
视觉编码器（理解）	[SigLIP - L](https://huggingface.co/timm/ViT - L - 16 - SigLIP - 384)，支持384 x 384图像输入
图像生成分词器	此处的分词器，下采样率为16

🚀 快速开始

请参考GitHub仓库

📄 许可证

本代码仓库遵循[MIT许可证](https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE - CODE)。Janus - Pro模型的使用需遵循[DeepSeek模型许可证](https://github.com/deepseek-ai/DeepSeek-LLM/blob/HEAD/LICENSE - MODEL)。

📚 引用

如果您使用了本项目，请引用以下文献：

@misc{chen2025januspro,
      title={Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling}, 
      author={Xiaokang Chen and Zhiyu Wu and Xingchao Liu and Zizheng Pan and Wen Liu and Zhenda Xie and Xingkai Yu and Chong Ruan},
      year={2025},
}