A

Arsh Llm Gpt

由 arshiaafshani 开发
基于GPT-2架构开发的大语言模型,专注于科研辅助功能,在有限硬件条件下完成训练
下载量 19
发布时间 : 5/14/2025
模型介绍
内容详情
替代品

模型简介

Arsh大语言模型是采用GPT-2架构开发的科研辅助项目,通过分阶段训练策略在有限硬件条件下完成训练,旨在证明大型模型未必需要顶级硬件支持

模型特点

有限硬件训练
在T4 GPU上通过分阶段训练策略完成模型训练,每个阶段耗时1-2天
多阶段训练
训练过程分为8个阶段,总耗时约4-5天,实现高效训练
混合数据集
使用olmo-mix-1124数据集进行训练,并结合多个开源对话数据集微调

模型能力

文本生成
科研辅助

使用案例

科研
科研文献辅助
辅助科研人员进行文献分析和内容生成