强化学习训练

# 强化学习训练

Mimo 7B RL 0530

MiMo是一系列专为推理任务从头训练的7B参数模型，通过优化预训练和后训练策略，在数学和代码推理任务上表现出色。

大型语言模型

Qwenlong L1 32B GGUF

QwenLong-L1-32B 是专为长上下文推理设计的大语言模型，通过强化学习训练，在多个长上下文问答基准测试中表现出色，能有效处理复杂的推理任务。

大型语言模型

Thinkless 1.5B RL DeepScaleR

Thinkless是一个通过强化学习训练的大语言模型，能够自适应选择简答或长链推理模式，显著降低推理计算成本。

大型语言模型

Seed Coder 8B Reasoning Bf16

Seed-Coder是一个8B规模的开源代码模型家族，包含基础版、指导版和推理版。推理版通过强化学习训练提升推理能力，支持64K上下文长度。

大型语言模型

专注于增强推理能力的320亿参数稠密语言模型，基于Qwen 2.5‑32B‑Base构建，在推理基准测试中展现出与更大规模MoE模型相媲美的性能。

大型语言模型

小米推出的7B参数规模推理专用语言模型系列，通过优化预训练和后训练策略显著提升数学与代码推理能力

大型语言模型

MiMo-7B-RL是基于MiMo-7B-SFT模型训练的强化学习模型，在数学与代码推理任务上达到与OpenAI o1-mini比肩的性能。

大型语言模型

VL-Reasoner-7B 是一个基于 GRPO-SSR 技术训练的多模态推理模型，在多项多模态推理基准测试中表现卓越。

文本生成图像

Transformers 英语

Timezero ActivityNet 7B

TimeZero是一种基于推理引导的大规模视觉语言模型（LVLM），专为时间视频定位（TVG）任务设计，通过强化学习方法实现动态视频-语言关系分析。

视频生成文本

Timezero Charades 7B

TimeZero是一种基于推理引导的大型视觉语言模型（LVLM），专为时间视频定位（TVG）任务设计，通过强化学习方法实现视频中与自然语言查询相对应的时序片段识别。

视频生成文本

Deepseek R1 Bf16

DeepSeek-R1是第一代推理模型，在数学、代码和推理任务上表现出色，性能可与OpenAI-o1相媲美。

大型语言模型

opensourcerelease

OpenChat v2系列是基于LLaMA-13B框架的语言模型，采用条件加权损失训练，在多个基准测试中超越ChatGPT表现。

大型语言模型

Transformers 英语

Promptist是基于强化学习的自动提示词优化工具，专为Stable Diffusion设计，可将用户输入转化为模型偏好的提示词。

Dqn SpaceInvadersNoFrameskip V4

这是一个基于 DQN 算法的强化学习智能体，专门用于玩 SpaceInvadersNoFrameskip-v4 游戏，使用 stable-baselines3 库训练。

Dqn Mountaincar V0 Zoo

这是一个基于深度Q网络(DQN)的强化学习智能体，专门用于解决MountainCar-v0环境中的任务。

物理学模型

Dqn Mountaincar V0

这是一个基于深度Q网络(DQN)的强化学习智能体，专门训练用于解决MountainCar-v0环境中的控制问题。

物理学模型

Dqn SpaceInvadersNoFrameskip V4

这是一个基于稳定基线3库训练的DQN智能体，专门用于玩SpaceInvadersNoFrameskip-v4游戏。

Dqn BeamRiderNoFrameskip V4

这是一个基于DQN算法的强化学习模型，专门用于Atari游戏BeamRiderNoFrameskip-v4环境。

Dqn BreakoutNoFrameskip V4

这是一个基于DQN算法的深度强化学习模型，专门用于Atari游戏BreakoutNoFrameskip-v4环境。

Dqn SpaceInvadersNoFrameskip V4

这是一个基于深度Q网络(DQN)的强化学习智能体，专门训练用于玩Atari游戏《太空侵略者》

这是一个基于 stable-baselines3 库训练的 DQN 强化学习智能体，专门用于解决 Acrobot-v1 控制问题。

物理学模型

Dqn PongNoFrameskip V4

这是一个基于DQN算法的强化学习模型，专门用于在PongNoFrameskip-v4环境中进行游戏。

Ppo BipedalWalker V3

这是一个使用 stable-baselines3 库训练的 PPO 智能体模型，专门用于 BipedalWalker-v3 环境中的强化学习任务。

蛋白质模型

PPO LunarLander V2

这是一个基于PPO算法的强化学习模型，专为LunarLander-v2环境训练，能够控制月球着陆器安全着陆。

物理学模型

Dqn LunarLander V2

这是一个使用stable-baselines3库训练的DQN智能体，用于解决LunarLander-v2环境中的强化学习任务。

Ppo Pendulum V1

这是一个基于PPO算法的强化学习模型，专门用于解决Pendulum-v1环境中的控制问题。

物理学模型

Ppo PongNoFrameskip V4

这是一个基于stable-baselines3库训练的PPO智能体，专门用于玩雅达利游戏PongNoFrameskip-v4。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24