G

Gpt2 774M Fineweb 150B

由 rhysjones 开发
该模型源自karpathy的llm.c项目,为研究bfloat16性能而转换为HuggingFace格式,训练过程消耗了1500亿token。
下载量 22
发布时间 : 4/25/2025
模型介绍
内容详情
替代品

模型简介

该模型是一个基于llm.c项目的语言模型,主要用于研究bfloat16性能优化,并在1000亿FineWeb样本数据集上进行了训练。

模型特点

bfloat16性能研究
该模型专门用于研究bfloat16数据类型的性能优化。
大规模训练
在1000亿FineWeb样本数据集上进行了1.5个epoch的训练,消耗了1500亿token。
活跃开发
当前仍在积极开发中,关注llm.c项目获取最新进展。

模型能力

语言模型训练
性能优化研究

使用案例

研究
bfloat16性能研究
研究bfloat16数据类型在语言模型训练中的性能表现。
大规模语言模型训练
探索在大规模数据集上的语言模型训练方法。