Arsh-llm-gpt开源大语言模型 - 免费助力科研，有限硬件也能训练！

首页

Arsh Llm Gpt

由 arshiaafshani 开发

基于GPT-2架构开发的大语言模型，专注于科研辅助功能，在有限硬件条件下完成训练

大型语言模型

Transformers

开源协议:MIT #科研辅助GPT #轻量级训练 #多阶段优化

下载量 19

发布时间 : 5/14/2025

模型简介

Arsh大语言模型是采用GPT-2架构开发的科研辅助项目，通过分阶段训练策略在有限硬件条件下完成训练，旨在证明大型模型未必需要顶级硬件支持

模型特点

有限硬件训练

在T4 GPU上通过分阶段训练策略完成模型训练，每个阶段耗时1-2天

多阶段训练

训练过程分为8个阶段，总耗时约4-5天，实现高效训练

混合数据集

使用olmo-mix-1124数据集进行训练，并结合多个开源对话数据集微调

模型能力

文本生成

科研辅助

使用案例

科研

科研文献辅助

辅助科研人员进行文献分析和内容生成

属性	详情
模型类型	基于gpt2架构的语言模型
训练数据	allenai/olmo - mix - 1124、PILE数据集部分数据、一些小型对话开源数据集

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Arsh Llm Gpt

模型简介

模型特点

模型能力

使用案例

🚀 Arsh LLM

🚀 快速开始

✨ 主要特性

📚 详细文档

模型描述

📄 许可证

🔧 技术细节