MMaDA-8B-MixCoT开源多模态模型 - 助力文本推理、理解及图像生成

首页

Mmada 8B MixCoT

由 Gen-Verse 开发

MMaDA是一类新型的多模态扩散基础模型，在文本推理、多模态理解和文本到图像生成等多个领域表现卓越。

文本生成图像

Transformers

开源协议:MIT #多模态扩散 #思维链推理 #文本图像生成

下载量 601

发布时间 : 6/1/2025

模型简介

MMaDA采用统一的扩散架构，结合混合长思维链微调策略和统一的强化学习算法，旨在提升多模态任务的性能。

模型特点

统一扩散架构

采用共享的概率公式和与模态无关的设计，无需特定于模态的组件。

混合长思维链微调策略

在各模态间精心策划统一的思维链格式，提升指令遵循能力和思维链生成性能。

统一的强化学习算法

采用UniGRPO算法，统一推理和生成任务的后训练过程，确保性能持续提升。

模型能力

文本推理

多模态理解

文本到图像生成

使用案例

文本处理

复杂文本推理

处理需要多步推理的复杂文本任务

更稳定的思维链生成性能

多模态任务

跨模态理解

同时处理和理解文本和图像信息

更好的多模态理解能力

内容生成

文本到图像生成

根据文本描述生成高质量图像

高质量的图像生成效果

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Mmada 8B MixCoT

模型简介

模型特点

模型能力

使用案例

🚀 MMaDA-8B-MixCoT

✨ 主要特性

📄 许可证

📚 详细文档

引用