L

Llmc Gpt2 774M 150B

由 mdouglas 开发
这是一个基于GPT-2架构的774M参数语言模型,使用FineWeb数据集中的1500亿token进行训练。
下载量 18
发布时间 : 6/12/2024
模型介绍
内容详情
替代品

模型简介

该模型是GPT-2架构的实现,专注于英语文本生成和理解任务。

模型特点

高效训练
在8块A100 80GB SXM显卡上仅需约6天完成训练
大规模数据训练
使用FineWeb数据集中的1500亿token进行训练
轻量级实现
基于llm.c的高效实现

模型能力

英语文本生成
语言理解
上下文学习

使用案例

文本生成
内容创作
生成文章、故事或其他创意文本
对话系统
构建聊天机器人或虚拟助手
教育
语言学习
作为英语学习辅助工具