DeepSeek-R1-Distill-Qwen-14B-GRPO-Taiwan-Spirit开源文本生成模型

首页

Deepseek R1 Distill Qwen 14B GRPO Taiwan Spirit

由 kartd 开发

这是一个基于Qwen-14B模型微调的版本，使用GRPO方法进行训练，适用于文本生成任务。

大型语言模型

Transformers

#强化学习微调 #文本生成优化 #GRPO训练

下载量 111

发布时间 : 6/4/2025

模型简介

该模型是基于特定模型微调的版本，使用TRL进行训练，主要用于文本生成任务。

模型特点

GRPO训练方法

使用GRPO方法进行训练，该方法在DeepSeekMath论文中被提出，优化了数学推理能力。

基于Qwen-14B微调

基于Qwen-14B模型进行微调，继承了其强大的文本生成能力。

TRL训练框架

使用TRL（Transformer Reinforcement Learning）框架进行训练，优化了模型的生成效果。

模型能力

文本生成

数学推理

使用案例

文本生成

时间旅行选择

生成关于时间旅行选择的文本回答

生成连贯且有逻辑的文本回答

数学推理

数学问题解答

解答复杂的数学问题

生成准确的数学推理和解答

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Deepseek R1 Distill Qwen 14B GRPO Taiwan Spirit

模型简介

模型特点

模型能力

使用案例

🚀 DeepSeek-R1-Distill-Qwen-14B-GRPO-Taiwan-Spirit

🚀 快速开始

📚 详细文档

训练过程

框架版本

📄 许可证

📚 引用