SciWorld-MPO开源智能模型 - 免费部署提升智能体规划决策能力

首页

Sciworld MPO

由 xwm 开发

基于Llama-3.1-8B-Instruct微调的强化学习模型，采用元计划优化技术提升智能体规划能力

大型语言模型

Transformers

英语开源协议:Apache-2.0 #元计划优化 #智能体规划 #任务执行反馈

下载量 96

发布时间 : 2/17/2025

模型简介

该模型通过元计划提供高层次通用指导，并基于智能体任务执行的反馈进行持续优化，在ALFWorld和SciWorld基准测试中表现优异

模型特点

元计划优化技术

采用MPO技术提升大语言模型智能体的规划能力

高性能基准测试

在ALFWorld和SciWorld基准测试中达到83.1%的平均准确率

反馈驱动优化

基于智能体任务执行的反馈进行持续优化

模型能力

智能体规划优化

元计划生成

任务执行反馈分析

强化学习决策

使用案例

智能体开发

虚拟助手规划优化

提升虚拟助手在复杂任务中的规划能力

在ALFWorld基准测试中表现优异

科学实验规划

优化科学实验步骤的规划流程

在SciWorld基准测试中取得高准确率

🚀 SciWorld-MPO

SciWorld-MPO 是一个基于强化学习的模型，它在 Llama-3.1-8B-Instruct 的基础上进行微调，通过 Meta Plan Optimization (MPO) 方法提升了大语言模型（LLM）智能体的规划能力，在 ALFWorld 和 SciWorld 上取得了优异的成绩。

🚀 快速开始

此模型是在 sciworld-metaplan-preference-pairs 数据集上对 Llama-3.1-8B-Instruct 进行微调后的版本。它在评估集上取得了以下结果：

损失：1.5017
奖励/选中：-3.8774
奖励/拒绝：-5.1594
奖励/准确率：0.6419
奖励/差距：1.2820
对数概率/选中：-92.4593
对数概率/拒绝：-109.6343
对数几率/选中：0.5212
对数几率/拒绝：0.5151

更多详细信息请参阅原始论文：MPO: Boosting LLM Agents with Meta Plan Optimization。

代码地址：https://github.com/WeiminXiong/MPO

✨ 主要特性

该模型运用 Meta Plan Optimization (MPO) 方法来提升大语言模型（LLM）智能体的规划能力。它通过元计划利用高级通用指导，并基于智能体任务执行的反馈实现持续优化。该模型在 ALFWorld 和 SciWorld 上达到了最先进的性能，平均准确率为 83.1。

📚 详细文档

预期用途与限制

更多信息待补充。

训练和评估数据

该模型在 sciworld-metaplan-preference-pairs 数据集上进行训练，该数据集是 Meta_Plan_Optimization 数据集的一部分。

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：1e-05
训练批次大小：2
评估批次大小：1
随机种子：42
分布式类型：多 GPU
设备数量：4
梯度累积步数：4
总训练批次大小：32
总评估批次大小：4
优化器：使用 adamw_torch，β=(0.9, 0.999)，ε=1e-08，无额外优化器参数
学习率调度器类型：余弦
学习率调度器预热比例：0.03
训练轮数：3.0

框架版本

Transformers 4.46.1
Pytorch 2.5.1+cu124
Datasets 3.1.0
Tokenizers 0.20.3

📄 许可证

本模型采用 Apache-2.0 许可证。

属性	详情
模型类型	基于 Meta Plan Optimization (MPO) 改进的大语言模型智能体
训练数据	`sciworld-metaplan-preference-pairs` 数据集，属于 Meta_Plan_Optimization 数据集
基础模型	meta-llama/Llama-3.1-8B-Instruct
评估指标	准确率
标签	NLP、智能体