Arsh-llm开源大语言模型 - 免费助力科研工作快速开展！

首页

Arsh Llm

由 arshiaafshani 开发

Arsh LLM是为科研设计的开源大语言模型，基于olmo混合数据集在T4 GPU上完成预训练，总耗时约4-5天。

大型语言模型

PyTorch

开源协议:MIT #轻量化预训练 #科研辅助工具 #混合数据集优化

下载量 162

发布时间 : 4/23/2025

模型简介

该项目旨在证明大型模型未必需要顶级硬件，通过优化架构设计和分阶段训练实现高效开发。当前版本为初始迭代版本，仍需进一步训练。

模型特点

硬件友好型训练

在消费级T4 GPU上完成训练，通过分阶段训练策略（8个部分，每部分1-2天）降低硬件门槛

混合数据集训练

结合PILE数据集预训练稳定模型性能，再使用olmo-mix-1124数据集进行主要训练

开源架构设计

参考Gpt-neox和Llama技术文档，结合AI辅助设计优化架构（待验证效果）

模型能力

文本生成

科研辅助

使用案例

科研领域

文献辅助生成

帮助研究人员快速生成论文草稿或技术文档

属性	详情
模型类型	文本生成
训练数据	allenai/olmo - mix - 1124

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Arsh Llm

模型简介

模型特点

模型能力

使用案例

🚀 Arsh LLM

🚀 快速开始

✨ 主要特性

📚 详细文档

模型详情

数据集

📄 许可证