O

Olmo 2 0425 1B Instruct

由 allenai 开发
OLMo 2 1B是基于allenai/OLMo-2-0425-1B-RLVR1模型的后训练变体,经过监督微调、DPO训练和RLVR训练,旨在实现多种任务的最先进性能。
下载量 5,127
发布时间 : 4/29/2025
模型介绍
内容详情
替代品

模型简介

OLMo 2 1B是一个开放语言模型,主要用于文本生成任务,支持英语,适用于研究和教育用途。

模型特点

开放语言模型
OLMo系列模型旨在推动语言模型科学研究,公开了所有代码、检查点、日志及相关训练细节。
多任务性能
在MATH、GSM8K和IFEval等多种任务上表现优异。
RLVR训练
经过RLVR训练,提供了中间检查点以促进RL微调研究。

模型能力

文本生成
多任务处理
指令跟随

使用案例

教育
数学问题解答
解答数学问题,如GSM8K和MATH数据集中的题目。
在GSM8K上达到68.3分,MATH上达到20.7分。
研究
语言模型研究
用于语言模型的微调和性能研究。