L

Llama 3.1 Tulu 3.1 8B

由 allenai 开发
Tülu 3 是领先的指令跟随模型家族,提供完全开源的数据、代码和训练方案作为现代技术的综合指南。3.1版本在强化学习阶段进行了改进,性能全面提升。
下载量 3,643
发布时间 : 2/7/2025
模型介绍
内容详情
替代品

模型简介

基于Llama 3.1架构的8B参数指令跟随模型,专为多样化任务(如数学、GSM8K和IFEval)设计,具有优秀的性能表现。

模型特点

强化学习优化
3.1版本从PPO切换到GRPO(无奖励模型),并调整超参数,性能全面提升
多样化任务表现
在数学、GSM8K和IFEval等多样化任务上实现优秀性能
完全开源
提供完全开源的数据、代码和训练方案

模型能力

文本生成
数学推理
代码生成
指令跟随

使用案例

教育
数学问题解答
解决GSM8K等数学问题
在GSM8K上达到90.0%准确率
编程
代码生成
生成Python代码
HumanEval pass@10达到84.8%
问答系统
知识问答
回答各类知识性问题
MMLU 5-shot达到69.5%准确率