library_name: transformers
datasets:
- atlasia/Atlaset
language:
- ar
- ary
base_model:
- Qwen/Qwen2.5-0.5B
pipeline_tag: text-generation
Al-Atlas:摩洛哥阿拉伯语大语言模型
概述
Al-Atlas是一个拥有5亿参数的语言模型,专门针对摩洛哥方言达里贾语训练而成,成为首个专注于摩洛哥主要口语方言的基础模型。该模型基于Qwen-2.5微调,并在精心筛选的1.55亿词符数据集上进行训练,内容完全为纯正摩洛哥达里贾语。
核心特性
- 专属方言模型:首个专为摩洛哥阿拉伯方言训练的语言模型
- 高质量数据:来自摩洛哥本土的1.55亿词符精选数据集
- 文化理解:能捕捉微妙的文化语境和本地化表达
数据集
训练语料包含1.55亿纯达里贾语词符,来源包括:
- 社交媒体对话
- 口语转录内容
- 在线论坛讨论
- 本地新闻媒体
- 用户生成内容
每个来源都经过严格筛选,确保方言纯正性并剔除现代标准阿拉伯语(MSA)及其他阿拉伯方言的混杂。
模型详情
- 架构:基于Transformer的语言模型
- 参数量:5亿
- 上下文窗口:2048词符
- 训练数据:1.55亿纯达里贾语词符
应用场景
- 面向摩洛哥用户的聊天机器人
- 达里贾语内容生成
- 摩洛哥内容文本分类
- 本地市场情感分析
- 客服自动化
- 达里贾语教育工具
快速开始
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained("atlasia/Al-Atlas-0.5B")
tokenizer = AutoTokenizer.from_pretrained("atlasia/Al-Atlas-0.5B")
text = "الذكاء الاصطناعي هو فرع من علوم الكمبيوتر اللي كيركز"
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(
**inputs,
max_new_tokens=1024,
pad_token_id=generator.tokenizer.pad_token_id or generator.tokenizer.eos_token_id,
repetition_penalty=1.5,
num_beams=8,
top_p= 0.9,
top_k= 150,
do_sample= True,
early_stopping = True,
)
response = tokenizer.decode(outputs[0])
人工智能是计算机科学的一个分支,专注于开发能够执行通常需要人类智能任务的机器,如模式识别、解决问题、决策制定和自然语言理解。人工智能具有改变我们生活、工作和互动方式的巨大潜力...
未来计划
- 扩展更大规模模型
- 建立达里贾语评估基准
- 扩充训练数据集
- 开发特定任务微调版本
- 监督微调(SFT)训练
@misc{atlasia2025al-atlas-0.5B,
title={Al-Atlas:摩洛哥达里贾语因果语言模型},
author={Abdelaziz Bounhar},
year={2025},
howpublished={\url{https://huggingface.co/atlasia/Al-Atlas-0.5B/}},
organization={AtlasIA}
}