Janus-1.3B开源模型 - 统一多模态理解与生成，灵活解决传统局限

首页

Janus 1.3B

由 deepseek-ai 开发

Janus 是一种新颖的自回归框架，统一了多模态理解与生成。它通过解耦视觉编码，解决了先前方法的局限性，增强了框架的灵活性。

文本生成图像

Transformers

开源协议:MIT #自回归多模态 #解耦视觉编码 #统一理解生成

下载量 12.44k

发布时间 : 10/18/2024

模型简介

Janus 是一个统一理解与生成的多模态大语言模型（MLLM），它解耦了多模态理解与生成的视觉编码。基于 DeepSeek-LLM-1.3b-base 构建，支持多模态理解和图像生成。

模型特点

解耦视觉编码

将视觉编码解耦为独立路径，缓解了视觉编码器在理解与生成角色之间的冲突。

统一架构

使用单一的统一 Transformer 架构处理多模态理解与生成任务。

灵活性

解耦设计增强了框架的灵活性，使其能够适应多种任务。

模型能力

多模态理解

文本生成图像

图像理解

使用案例

多模态交互

图像生成

根据文本描述生成图像。

支持高质量图像生成。

图像理解

理解图像内容并生成相关描述。

达到或超过特定任务模型的性能。

🚀 Janus - 多模态统一理解与生成框架

Janus是一种新颖的自回归框架，它将多模态理解和生成统一起来。该框架通过将视觉编码解耦为独立的路径，同时仍使用单一、统一的Transformer架构进行处理，解决了以往方法的局限性。这种解耦不仅缓解了视觉编码器在理解和生成任务中的冲突，还增强了框架的灵活性。Janus超越了以往的统一模型，其性能可与甚至超过特定任务模型，以其简单性、高灵活性和有效性，成为下一代统一多模态模型的有力候选者。

🚀 快速开始

请参考 Github仓库

✨ 主要特性

多模态统一：Janus是一个统一的理解和生成多模态大语言模型（MLLM），将视觉编码解耦以用于多模态理解和生成。
强大的基础模型：基于DeepSeek - LLM - 1.3b - base构建，该模型在约500B文本标记的语料库上进行训练。
灵活的视觉编码：在多模态理解方面，使用 [SigLIP - L](https://huggingface.co/timm/ViT - L - 16 - SigLIP - 384) 作为视觉编码器，支持384 x 384的图像输入；在图像生成方面，使用此处的分词器，下采样率为16。

📚 详细文档

0. 更新

2024.10.20：我们已上传正确的 tokenizer_config.json 文件。之前的文件缺少 pad_token，这导致视觉生成效果不佳。

1. 简介

Janus是一种创新的自回归框架，旨在统一多模态理解和生成任务。通过将视觉编码解耦为独立的路径，同时利用单一的统一Transformer架构进行处理，它克服了以往方法的局限性。这种解耦不仅减轻了视觉编码器在理解和生成角色之间的冲突，还提高了框架的灵活性。Janus超越了以往的统一模型，其性能与特定任务模型相当甚至更优。其简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力竞争者。

Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation

Github仓库

2. 模型概述

Janus是一个统一的理解和生成多模态大语言模型，它将视觉编码解耦以用于多模态理解和生成。Janus基于DeepSeek - LLM - 1.3b - base构建，该模型在约500B文本标记的语料库上进行训练。

在多模态理解方面，它使用 [SigLIP - L](https://huggingface.co/timm/ViT - L - 16 - SigLIP - 384) 作为视觉编码器，支持384 x 384的图像输入。在图像生成方面，Janus使用此处的分词器，下采样率为16。

📄 许可证

本代码仓库遵循 MIT许可证。Janus模型的使用需遵循 DeepSeek模型许可证。

📚 引用

@misc{wu2024janus,
      title={Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation}, 
      author={Chengyue Wu and Xiaokang Chen and Zhiyu Wu and Yiyang Ma and Xingchao Liu and Zizheng Pan and Wen Liu and Zhenda Xie and Xingkai Yu and Chong Ruan and Ping Luo},
      year={2024},
      eprint={2410.13848},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2410.13848}, 
}