license: apache-2.0
library_name: transformers
inference: false
🍓 Marco-o1:迈向开放式解决方案的开放推理模型
🎯 Marco-o1不仅关注数学、物理和编程等适合强化学习(RL)的标准答案学科,更着重探索开放式解决方案。我们致力于回答:"o1模型能否有效推广至缺乏明确标准且难以量化奖励的广阔领域?"
当前,Marco-o1大语言模型(LLM)通过_思维链微调_、蒙特卡洛树搜索(MCTS)、_反思机制_和_创新推理策略_赋能,专为复杂现实问题求解任务优化。
⚠️ 局限性说明:本研究工作受OpenAI的o1启发(名称亦源于此),旨在探索大推理模型技术路线的可能性。我们聚焦开放式问题,并在多语言应用中观察到有趣现象。但必须指出,当前模型仅初步展现o1式推理特性,性能与完全体"o1"仍有差距。这非一蹴而就的工作,我们将持续优化改进。

🚀 核心亮点
本研究的突出贡献包括:
- 🍀 思维链数据微调:基于开源CoT数据集与自研合成数据全参数微调,构建Marco-o1-CoT
- 🍀 MCTS扩展解空间:融合LLM与蒙特卡洛树搜索(Marco-o1-MCTS),利用模型置信度指导搜索
- 🍀 推理动作策略:创新实现推理动作策略与反思机制(Marco-o1-MCTS微步进),包括MCTS框架内多粒度动作探索与模型自反思,显著提升复杂问题解决能力
- 🍀 翻译任务应用:首次将大推理模型(LRM)应用于机器翻译任务,探索多语言领域的推理缩放规律
OpenAI近期推出的革命性o1模型以卓越推理能力闻名,在AIME、CodeForces等平台表现超越同类。受此启发,我们致力于突破LLM边界,增强其应对复杂现实挑战的推理能力。
🌍 Marco-o1通过CoT微调、MCTS和推理动作策略等先进技术强化推理性能。如图2所示,基于Qwen2-7B-Instruct模型,融合过滤后的Open-o1 CoT数据集、Marco-o1 CoT数据集和指令数据集进行微调,显著提升复杂任务处理能力。MCTS利用top-k备选词元的softmax归一化对数概率生成置信度,探索多推理路径。此外,通过步进与微步进的粒度调节优化搜索效率与精度。
图2:Marco-o1架构概览
🌏 如图3所示,Marco-o1在MGSM(英文)数据集准确率提升6.17%,中文版本提升5.60%,展现卓越推理增强效果。
图3:Marco-o1主要实验结果
🌎 在翻译任务中,Marco-o1擅长处理俚语表达,如将"这个鞋拥有踩屎感"精准译为"This shoe has a comfortable sole",展现对口语语义的深刻把握。
图4:Marco-o1翻译任务演示
更多信息请访问GitHub项目主页。
使用指南
-
加载Marco-o1-CoT模型:
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("AIDC-AI/Marco-o1")
model = AutoModelForCausalLM.from_pretrained("AIDC-AI/Marco-o1")
-
推理执行:
# 运行推理脚本(可自定义输入内容)
./src/talk_with_model.py
# 使用vLLM加速
./src/talk_with_model_vllm.py
👨🏻💻 致谢
核心贡献者
来自阿里巴巴国际数字商业集团AI事业部MarcoPolo团队:
引用
若Marco-o1对您的研究或应用有所助益,请引用:
@misc{zhao2024marcoo1openreasoningmodels,
title={Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions},
author={Yu Zhao and Huifeng Yin and Bo Zeng and Hao Wang and Tianqi Shi and Chenyang Lyu and Longyue Wang and Weihua Luo and Kaifu Zhang},
year={2024},
eprint={2411.14405},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.14405},
}
许可协议
本项目采用Apache 2.0许可证(SPDX-License-identifier: Apache-2.0)。
免责声明
我们在训练过程中采用了合规性检查算法,尽最大努力确保模型与数据集的合规性。鉴于数据复杂性及语言模型应用场景多样性,我们无法保证模型完全不存在版权问题或不恰当内容。如您认为存在侵权或不当内容,请及时联系我们处理。