J

Janus 1.3B

由 deepseek-ai 开发
Janus 是一种新颖的自回归框架,统一了多模态理解与生成。它通过解耦视觉编码,解决了先前方法的局限性,增强了框架的灵活性。
下载量 12.44k
发布时间 : 10/18/2024
模型介绍
内容详情
替代品

模型简介

Janus 是一个统一理解与生成的多模态大语言模型(MLLM),它解耦了多模态理解与生成的视觉编码。基于 DeepSeek-LLM-1.3b-base 构建,支持多模态理解和图像生成。

模型特点

解耦视觉编码
将视觉编码解耦为独立路径,缓解了视觉编码器在理解与生成角色之间的冲突。
统一架构
使用单一的统一 Transformer 架构处理多模态理解与生成任务。
灵活性
解耦设计增强了框架的灵活性,使其能够适应多种任务。

模型能力

多模态理解
文本生成图像
图像理解

使用案例

多模态交互
图像生成
根据文本描述生成图像。
支持高质量图像生成。
图像理解
理解图像内容并生成相关描述。
达到或超过特定任务模型的性能。