🚀 Janus - 多模态统一理解与生成框架
Janus是一种新颖的自回归框架,它将多模态理解和生成统一起来。该框架通过将视觉编码解耦为独立的路径,同时仍使用单一、统一的Transformer架构进行处理,解决了以往方法的局限性。这种解耦不仅缓解了视觉编码器在理解和生成任务中的冲突,还增强了框架的灵活性。Janus超越了以往的统一模型,其性能可与甚至超过特定任务模型,以其简单性、高灵活性和有效性,成为下一代统一多模态模型的有力候选者。
🚀 快速开始
请参考 Github仓库
✨ 主要特性
- 多模态统一:Janus是一个统一的理解和生成多模态大语言模型(MLLM),将视觉编码解耦以用于多模态理解和生成。
- 强大的基础模型:基于DeepSeek - LLM - 1.3b - base构建,该模型在约500B文本标记的语料库上进行训练。
- 灵活的视觉编码:在多模态理解方面,使用 [SigLIP - L](https://huggingface.co/timm/ViT - L - 16 - SigLIP - 384) 作为视觉编码器,支持384 x 384的图像输入;在图像生成方面,使用 此处 的分词器,下采样率为16。
📚 详细文档
0. 更新
2024.10.20:我们已上传正确的 tokenizer_config.json
文件。之前的文件缺少 pad_token
,这导致视觉生成效果不佳。
1. 简介
Janus是一种创新的自回归框架,旨在统一多模态理解和生成任务。通过将视觉编码解耦为独立的路径,同时利用单一的统一Transformer架构进行处理,它克服了以往方法的局限性。这种解耦不仅减轻了视觉编码器在理解和生成角色之间的冲突,还提高了框架的灵活性。Janus超越了以往的统一模型,其性能与特定任务模型相当甚至更优。其简单性、高灵活性和有效性使其成为下一代统一多模态模型的有力竞争者。
Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation
Github仓库
2. 模型概述
Janus是一个统一的理解和生成多模态大语言模型,它将视觉编码解耦以用于多模态理解和生成。Janus基于DeepSeek - LLM - 1.3b - base构建,该模型在约500B文本标记的语料库上进行训练。
在多模态理解方面,它使用 [SigLIP - L](https://huggingface.co/timm/ViT - L - 16 - SigLIP - 384) 作为视觉编码器,支持384 x 384的图像输入。在图像生成方面,Janus使用 此处 的分词器,下采样率为16。
📄 许可证
本代码仓库遵循 MIT许可证。Janus模型的使用需遵循 DeepSeek模型许可证。
📚 引用
@misc{wu2024janus,
title={Janus: Decoupling Visual Encoding for Unified Multimodal Understanding and Generation},
author={Chengyue Wu and Xiaokang Chen and Zhiyu Wu and Yiyang Ma and Xingchao Liu and Zizheng Pan and Wen Liu and Zhenda Xie and Xingkai Yu and Chong Ruan and Ping Luo},
year={2024},
eprint={2410.13848},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2410.13848},
}
📞 联系我们
如果您有任何问题,请提出问题或通过 service@deepseek.com 与我们联系。