mallam-1.1B-4096开源预训练模型 - 适用马来语文本处理，长上下文支持

Mallam 1.1B 4096

由 mesolitica 开发

基于马来语文本的1.1B参数预训练模型，使用Mistral架构，支持4096上下文长度

下载量 201

发布时间 : 11/27/2023

模型简介

这是一个专门针对马来语优化的1.1B参数大语言模型，在900亿马来语文本token上从头预训练，适用于马来语文本生成和理解任务

马来语优化

专门针对马来语文本进行训练和优化

长上下文支持

支持4096 tokens的长上下文处理能力

高效训练

使用Ray集群在5个节点（每个节点4×A100 80GB）上高效完成训练

马来语文本生成

长文本理解

语言模型推理

文本生成

马来语内容创作

生成马来语文章、故事或其他创意内容

对话系统

构建马来语聊天机器人或虚拟助手

教育

语言学习辅助

帮助学习马来语的用户练习和理解语言

属性	详情
模型类型	MaLLaM 1.1B 马来西亚大语言模型
训练数据	900 亿马来西亚文本标记，收集于 https://github.com/malaysia-ai/dedup-text-dataset/tree/main/pretrain-llm
训练环境	使用 Ray 集群在 5 个节点（每个节点配备 4 个 A100 80GB GPU）上进行训练，配置参考 https://github.com/malaysia-ai/jupyter-gpu/tree/main/ray
WandB 项目	https://wandb.ai/mesolitica/pretrain-mistral-1.1b?workspace=user-husein-mesolitica
WandB 报告	https://wandb.ai/mesolitica/pretrain-mistral-3b/reports/Pretrain-Larger-Malaysian-Mistral--Vmlldzo2MDkyOTgz
技术报告	https://github.com/mesolitica/malaya/wiki/MaLLaM-%F0%9F%8C%99-Malaysia-Large-Language-Model