强化学习控制

# 强化学习控制

Tldr Content Gen

基于Mistral-7B-v0.1微调的新闻内容生成模型，可根据标题自动生成新闻内容

Dqn CartPole V1

这是一个基于深度Q网络(DQN)的强化学习模型，专门用于解决CartPole-v1环境中的平衡杆问题。

这是一个基于stable-baselines3库训练的TD3智能体模型，专门用于Hopper-v3环境中的强化学习任务。

物理学模型

这是一个基于 stable-baselines3 库训练的 PPO 强化学习模型，专门用于 Hopper-v3 环境中的连续控制任务。

物理学模型

Ppo HalfCheetah V3

这是一个基于PPO算法的强化学习模型，专为HalfCheetah-v3环境设计，由stable-baselines3库训练。

物理学模型

Ppo MountainCar V0

这是一个基于 PPO 算法的深度强化学习模型，专门用于解决 MountainCar-v0 环境中的控制问题。

物理学模型

Dqn MountainCar V0

这是一个使用stable-baselines3训练的DQN智能体模型，专门用于解决MountainCar-v0环境中的强化学习任务。

Ppo CartPole V1

这是一个基于PPO算法的强化学习模型，专门用于解决CartPole-v1环境中的平衡问题。

Decision Transformer Gym Walker2d Expert

这是一个经过训练的决策变换器模型，其训练数据来源于Gym Walker2d环境中采样的专家轨迹。

物理学模型

Decision Transformer Gym Hopper Medium

这是一个在Gym Hopper环境中使用中等表现轨迹训练的决策变换器模型，适用于连续控制任务。

物理学模型

Decision Transformer Gym Hopper Expert

这是一个经过训练的决策变换器模型，其训练数据来源于Gym Hopper环境中的专家轨迹。

物理学模型

Decision Transformer Gym Halfcheetah Medium

这是一个基于决策变换器架构的强化学习模型，专门针对Gym HalfCheetah连续控制环境训练，使用中等质量轨迹数据进行训练。

物理学模型

Decision Transformer Gym Halfcheetah Expert

这是一个经过训练的决策变换器模型，其训练数据来自Gym HalfCheetah环境中采样的专家轨迹。

物理学模型

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24