开源M1-32B大语言模型 - 提升多智能体系统推理、讨论与决策能力

首页

M1 32b

由 Can111 开发

M1-32B是基于Qwen2.5-32B-Instruct微调的320亿参数大语言模型，专为提升多智能体系统中的推理、讨论和决策能力而优化。

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #多智能体协作推理 #角色感知对话 #跨学科决策优化

下载量 179

发布时间 : 3/11/2025

模型简介

该模型通过多智能体协作推理训练，增强在复杂任务中的推理能力和角色感知对话生成能力，适用于多智能体系统(MAS)的研究和应用。

模型特点

增强型协作推理

基于真实多智能体交互轨迹训练，涵盖专家招募官、问题解决者、评估者等多元角色。

角色感知对话生成

通过结构化提示学习从不同专家视角进行推理和回应。

多智能体系统优化

具备自适应协作和token预算管理能力，是优秀的MAS智能体。

模型能力

多智能体协作推理

数学问题求解

编程任务解决

跨语言文本生成

角色感知对话生成

使用案例

学术研究

多智能体系统研究

用于研究多智能体协作推理机制和决策过程

在MATH-500和MBPP-S任务上达到与o3-mini和DeepSeek-R1相当的水平

教育

数学问题求解

协助学生解决复杂数学问题

在AIME2024和MATH-500测试中表现优异

🚀 M1-32B大语言模型

M1-32B是一个具有320亿参数的大语言模型，它基于Qwen2.5-32B-Instruct在M500数据集（一个跨学科的多智能体协作推理数据集）上进行微调。该模型针对多智能体系统（MAS）中的推理、讨论和决策进行了优化，适用于AgentVerse等框架。

🚀 快速开始

本模型的代码可在https://github.com/jincan333/MAS-TTS获取。

✨ 主要特性

🧠 增强的协作推理能力
基于涉及不同角色（如专家招聘者、问题解决者和评估者）的真实多智能体轨迹进行训练。
🗣️ 角色感知的对话生成
能够根据结构化提示，从不同专家的角度进行推理和回应。
⚙️ 针对多智能体系统进行优化
作为MAS智能体表现出色，具备自适应协作和令牌预算管理能力。

📦 安装指南

文档未提供具体安装步骤，暂不展示。

📚 详细文档

🏗️ 模型训练

基础模型：Qwen2.5-32B-Instruct
数据集：M500（500条精心策划的多智能体推理轨迹）
目标：在角色条件提示上进行监督微调（SFT）
训练设置：
- 8 × A100 GPU
- 5个训练周期
- 学习率：1e-5
- 框架：DeepSpeed、FlashAttention、LLaMA-Factory

📊 性能

模型	通用理解能力		数学推理能力		编码能力
	GPQA	Commongen	AIME2024	MATH - 500	HumanEval	MBPP - S
非推理模型
Qwen2.5	50.2	96.7	21.1	84.4	89.0	80.2
DeepSeek - V3	58.6	98.6	33.3	88.6	89.6	83.9
GPT - 4o	49.2	97.8	7.8	81.3	90.9	85.4
推理模型
s1.1 - 32B	58.3	94.1	53.3	90.6	82.3	77.4
DeepSeek - R1	75.5	97.2	78.9	96.2	98.2	91.7
o3 - mini	71.3	99.1	84.4	95.3	97.0	93.6
M1 - 32B（我们的模型）	61.1	96.9	60.0	95.1	92.8	89.1
M1 - 32B w. CEO（我们的模型）	62.1	97.4	62.2	95.8	93.9	90.5

表格说明：在AgentVerse框架内，使用强推理和非推理模型在通用理解、数学推理和编码任务上的性能比较。我们的方法在所有任务上都比Qwen2.5和s1.1 - 32B有显著改进，并且在MATH - 500和MBPP - S上达到了与o3 - mini和DeepSeek - R1相当的性能，证明了其在增强MAS协作推理方面的有效性。请注意，s1.1 - 32B的结果是在不使用预算强制的情况下获得的。

💬 预期用途

M1 - 32B旨在用于多智能体系统中多智能体推理和协作的研究。

📄 许可证

本模型采用Apache - 2.0许可证。

引用

如果您使用此模型，请引用相关论文：

@article{jin2025two,
  title={Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning},
  author={Jin, Can and Peng, Hongwu and Zhang, Qixin and Tang, Yujin and Metaxas, Dimitris N and Che, Tong},
  journal={arXiv preprint arXiv:2504.09772},
  year={2025}
}

模型信息

属性	详情
基础模型	Qwen/Qwen2.5 - 32B - Instruct
支持语言	中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文、越南文、泰文、阿拉伯文
库名称	transformers
许可证	apache - 2.0
标签	多智能体系统、多智能体协作、推理、数学、代码
任务类型	文本生成
模型索引名称	m1 - 32B