S

Sciworld MPO

由 xwm 开发
基于Llama-3.1-8B-Instruct微调的强化学习模型,采用元计划优化技术提升智能体规划能力
下载量 96
发布时间 : 2/17/2025
模型介绍
内容详情
替代品

模型简介

该模型通过元计划提供高层次通用指导,并基于智能体任务执行的反馈进行持续优化,在ALFWorld和SciWorld基准测试中表现优异

模型特点

元计划优化技术
采用MPO技术提升大语言模型智能体的规划能力
高性能基准测试
在ALFWorld和SciWorld基准测试中达到83.1%的平均准确率
反馈驱动优化
基于智能体任务执行的反馈进行持续优化

模型能力

智能体规划优化
元计划生成
任务执行反馈分析
强化学习决策

使用案例

智能体开发
虚拟助手规划优化
提升虚拟助手在复杂任务中的规划能力
在ALFWorld基准测试中表现优异
科学实验规划
优化科学实验步骤的规划流程
在SciWorld基准测试中取得高准确率