O

Openrs3 GRPO Ja

由 EQUES 开发
OpenRS3-GRPO-ja是基于SakanaAI/TinySwallow-1.5B-Instruct模型在日语数学指令数据集上微调的版本,采用GRPO方法训练,专注于数学推理任务。
下载量 25
发布时间 : 4/4/2025
模型介绍
内容详情
替代品

模型简介

该模型是一个日语语言模型,专门针对数学推理任务进行了优化,适用于生成数学相关的指令响应。

模型特点

GRPO训练方法
采用DeepSeekMath论文中提出的GRPO方法进行训练,优化数学推理能力。
日语数学指令优化
在OpenMathInstruct-1-1.8m-ja日语数学指令数据集上微调,擅长处理日语数学问题。
TRL框架训练
使用TRL(基于Transformer的强化学习)框架进行训练,共进行了300步训练。

模型能力

日语文本生成
数学问题解答
指令理解与响应

使用案例

教育
数学问题解答
帮助学生理解和解答数学问题
生成详细的解题步骤和解释
研究
数学推理研究
用于数学推理能力的研究和评估