Janus-Pro-1B开源模型 - 统一多模态理解与生成，处理多任务超实用！

首页

Janus Pro 1B

由 deepseek-ai 开发

Janus-Pro 是一种新颖的自回归框架，统一了多模态理解与生成能力。通过解耦视觉编码路径，使用单一 Transformer 架构处理多模态任务。

文本生成图像

Transformers

开源协议:MIT #多模态统一模型 #自回归框架 #视觉编码解耦

下载量 34.02k

发布时间 : 1/26/2025

模型简介

Janus-Pro 是一个统一多模态理解和生成的模型，通过分离视觉编码设计，解决了理解与生成角色间的冲突，具有高灵活性和高效性。

模型特点

解耦视觉编码

将视觉编码解耦为独立路径，缓解理解与生成角色间的冲突，增强模型灵活性。

统一架构

使用单一 Transformer 架构处理多模态任务，简化模型设计。

高性能

超越之前的统一模型，达到或超过专用任务模型的性能。

模型能力

多模态理解

文本到图像生成

视觉问答

图像描述生成

使用案例

内容生成

图像生成

根据文本描述生成高质量图像。

支持 16 倍降采样率，生成细节丰富的图像。

视觉理解

图像分析

理解图像内容并回答相关问题。

支持 384 x 384 分辨率图像输入。

🚀 Janus-Pro

Janus-Pro 是一种新颖的自回归框架，它将多模态理解和生成进行了统一。该框架解决了以往方法的局限性，通过将视觉编码解耦为独立的路径，同时仍使用单一、统一的 Transformer 架构进行处理。这种解耦不仅缓解了视觉编码器在理解和生成任务中的角色冲突，还增强了框架的灵活性。Janus-Pro 超越了以往的统一模型，其性能与特定任务模型相当甚至更优。Janus-Pro 的简洁性、高度灵活性和有效性使其成为下一代统一多模态模型的有力候选者。

🚀 快速开始

请参考 Github 仓库

✨ 主要特性

统一多模态处理：Janus-Pro 是一个统一的理解和生成多模态大语言模型（MLLM），将多模态理解和生成的视觉编码解耦。
高性能表现：超越了以往的统一模型，性能与特定任务模型相当甚至更优。
灵活架构：通过解耦视觉编码，缓解了视觉编码器在理解和生成任务中的角色冲突，增强了框架的灵活性。

📚 详细文档

模型概述

Janus-Pro 是一个统一的理解和生成 MLLM，它将多模态理解和生成的视觉编码解耦。Janus-Pro 基于 DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base 构建。

对于多模态理解，它使用 SigLIP-L 作为视觉编码器，支持 384 x 384 图像输入。对于图像生成，Janus-Pro 使用此处的分词器，下采样率为 16。

项目展示

模型信息

属性	详情
模型类型	统一的多模态理解和生成模型
训练基础模型	DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base
多模态理解视觉编码器	SigLIP-L
图像生成分词器	此处的分词器，下采样率为 16

📄 许可证

此代码仓库遵循 MIT 许可证。Janus-Pro 模型的使用需遵循 DeepSeek 模型许可证。

📚 引用

@article{chen2025janus,
  title={Janus-Pro: Unified Multimodal Understanding and Generation with Data and Model Scaling},
  author={Chen, Xiaokang and Wu, Zhiyu and Liu, Xingchao and Pan, Zizheng and Liu, Wen and Xie, Zhenda and Yu, Xingkai and Ruan, Chong},
  journal={arXiv preprint arXiv:2501.17811},
  year={2025}
}