tqc-PandaPickAndPlace-v1开源深度强化学习模型

首页

Tqc PandaPickAndPlace V1

由 sb3 开发

这是一个基于TQC算法的深度强化学习模型，专为PandaPickAndPlace-v1环境设计，用于机械臂抓取和放置任务。

分子模型 #机械臂抓取 #离线策略学习 #多目标优化

下载量 14

发布时间 : 6/2/2022

模型简介

该模型使用TQC算法训练，适用于机械臂的抓取和放置任务，能够学习复杂的操作策略。

模型特点

基于HER的样本高效学习

使用HER (Hindsight Experience Replay)技术，提高了在稀疏奖励环境中的学习效率。

多目标策略

能够处理多目标强化学习任务，适应不同的抓取和放置场景。

稳定训练

采用TQC算法，通过截断分位数回归提高训练稳定性。

模型能力

机械臂控制

物体抓取

物体放置

强化学习任务解决

使用案例

工业自动化

生产线物品分拣

在自动化生产线上进行物品抓取和分类放置

平均奖励-12.90±8.87

机器人研究

机械臂操作研究

用于研究机械臂的精细操作能力

🚀 TQC 智能体在 PandaPickAndPlace-v1 环境中的应用

本项目是一个经过训练的 TQC 智能体，它使用 stable-baselines3 库和 RL Zoo 在 PandaPickAndPlace-v1 环境中进行学习和操作。RL Zoo 是一个针对 Stable Baselines3 强化学习智能体的训练框架，包含超参数优化和预训练智能体。

🚀 快速开始

模型使用（借助 SB3 RL Zoo）

你可以按照以下步骤使用预训练模型：

# 下载模型并保存到 logs/ 文件夹
python -m rl_zoo3.load_from_hub --algo tqc --env PandaPickAndPlace-v1 -orga sb3 -f logs/
python enjoy.py --algo tqc --env PandaPickAndPlace-v1  -f logs/

模型训练（借助 RL Zoo）

若要重新训练模型，可执行以下命令：

python train.py --algo tqc --env PandaPickAndPlace-v1 -f logs/
# 上传模型并生成视频（若支持）
python -m rl_zoo3.push_to_hub --algo tqc --env PandaPickAndPlace-v1 -f logs/ -orga sb3

✨ 主要特性

本项目具有以下主要特性：

采用 TQC 算法在 PandaPickAndPlace-v1 环境中训练智能体。
借助 RL Zoo 框架，支持超参数优化和预训练智能体。

📚 详细文档

超参数设置

以下是训练时使用的超参数：

OrderedDict([('batch_size', 2048),
             ('buffer_size', 1000000),
             ('env_wrapper', 'sb3_contrib.common.wrappers.TimeFeatureWrapper'),
             ('gamma', 0.95),
             ('learning_rate', 0.001),
             ('n_timesteps', 1000000.0),
             ('policy', 'MultiInputPolicy'),
             ('policy_kwargs', 'dict(net_arch=[512, 512, 512], n_critics=2)'),
             ('replay_buffer_class', 'HerReplayBuffer'),
             ('replay_buffer_kwargs',
              "dict( online_sampling=True, goal_selection_strategy='future', "
              'n_sampled_goal=4, )'),
             ('tau', 0.05),
             ('normalize', False)])