td3-MountainCarContinuous-v0开源智能体 - 专为特定环境设计的强化学习工具

首页

Td3 MountainCarContinuous V0

由 sb3 开发

一个基于stable-baselines3库训练的TD3强化学习智能体，专为MountainCarContinuous-v0环境设计。

物理学模型 #连续动作控制 #深度强化学习 #MountainCar环境

下载量 203

发布时间 : 6/2/2022

模型简介

该模型使用Twin Delayed DDPG (TD3)算法训练，用于解决连续动作空间的MountainCar任务，目标是让小车高效到达山顶。

模型特点

高效连续控制

采用TD3算法，特别适合处理连续动作空间的控制问题

稳定训练

通过双Q网络和延迟策略更新等技术提高训练稳定性

集成噪声机制

使用Ornstein-Uhlenbeck噪声策略增强探索能力

模型能力

连续动作空间控制

强化学习任务解决

环境交互学习

使用案例

经典控制问题

MountainCar连续控制

控制小车在连续动作空间中到达山顶

平均奖励达到93.46

强化学习研究

算法基准测试

作为TD3算法在连续控制任务中的性能基准

属性	详情
模型名称	TD3
任务类型	强化学习
数据集	MountainCarContinuous-v0
平均奖励	93.46 ± 0.05

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Td3 MountainCarContinuous V0

模型简介

模型特点

模型能力

使用案例

🚀 稳定基线3（Stable-Baselines3）之TD3智能体在MountainCarContinuous-v0环境中的应用

模型指标

🚀 快速开始

使用已训练模型（借助 SB3 RL Zoo）

模型训练（借助 RL Zoo）

📚 详细文档

超参数设置