C

Codellama 7b Hf ReFT GSM8k

由 lqtrung1998 开发
通过强化微调增强大语言模型的推理泛化能力,基于Codellama微调,适用于代码生成与理解任务。
下载量 38
发布时间 : 1/29/2024
模型介绍
内容详情
替代品

模型简介

ReFT方法通过强化微调提升大语言模型在数学推理任务上的表现,特别针对GSM8k数学问题数据集优化。

模型特点

强化微调
通过强化学习优化模型在数学推理任务上的表现
Python SDP思维链
使用Python结构化思维链格式训练模型
重排序机制
配备专门的重排序模型评估输出思维链的正确性

模型能力

数学问题求解
Python代码生成
结构化推理
思维链生成

使用案例

教育
数学问题解答
解决GSM8k数据集中的数学应用题
在GSM8k测试集上达到81.2%准确率
编程辅助
代码生成
根据数学问题描述生成Python解决方案代码