M

Mmada 8B MixCoT

由 Gen-Verse 开发
MMaDA是一类新型的多模态扩散基础模型,在文本推理、多模态理解和文本到图像生成等多个领域表现卓越。
下载量 601
发布时间 : 6/1/2025
模型介绍
内容详情
替代品

模型简介

MMaDA采用统一的扩散架构,结合混合长思维链微调策略和统一的强化学习算法,旨在提升多模态任务的性能。

模型特点

统一扩散架构
采用共享的概率公式和与模态无关的设计,无需特定于模态的组件。
混合长思维链微调策略
在各模态间精心策划统一的思维链格式,提升指令遵循能力和思维链生成性能。
统一的强化学习算法
采用UniGRPO算法,统一推理和生成任务的后训练过程,确保性能持续提升。

模型能力

文本推理
多模态理解
文本到图像生成

使用案例

文本处理
复杂文本推理
处理需要多步推理的复杂文本任务
更稳定的思维链生成性能
多模态任务
跨模态理解
同时处理和理解文本和图像信息
更好的多模态理解能力
内容生成
文本到图像生成
根据文本描述生成高质量图像
高质量的图像生成效果