base_model: unsloth/qwen2.5-3b-instruct-unsloth-bnb-4bit
library_name: peft
license: apache-2.0
language:
- ar
tags:
- 阿拉伯语
- 推理
- 大语言模型
- DIRA
- 千问
- unsloth
- transformers
- PEFT
pipeline_tag: 文本生成
迪拉亚-3B-阿拉伯语指令模型

模型简介
迪拉亚-3B-阿拉伯语指令模型是基于Qwen2.5-3B
微调的阿拉伯语推理专用语言模型。
该模型属于**DIRA(迪拉亚阿拉伯语推理AI)**系列,专注于提升阿拉伯语语言模型在逻辑推理和数学解题方面的能力。
核心特性
- 阿拉伯语优先推理:专为阿拉伯语复杂推理任务优化
- 结构化推理格式:训练输出清晰XML格式的推理过程
- 数学推理能力:增强的多步骤数学问题求解能力
- 指令调优:可靠遵循阿拉伯语指令
- 轻量化:基于高效的30亿参数架构
技术细节
基础模型:Qwen2.5-3B通过unsloth/Qwen2.5-3B-Instruct-unsloth-bnb-4bit优化
模型类型:指令调优的因果语言模型
架构:
- 36层Transformer结构
- 16个查询注意力头(GQA)
- 2个键值注意力头
- 上下文长度:32,768个标记
训练方法:
- 使用
GPRO
方法微调
- 训练重点在于XML标签的结构化推理输出格式
- 基于阿拉伯语GSM8K数据集优化数学推理能力
- 综合运用正确性、格式遵循和输出结构等多重奖励函数
LoRA配置:
{
"peft_type": "LORA",
"r": 64,
"lora_alpha": 64,
"lora_dropout": 0,
"target_modules": [
"k_proj", "gate_proj", "o_proj", "down_proj",
"v_proj", "up_proj", "q_proj"
],
"bias": "none",
"inference_mode": true
}
使用方式
模型设计为输出以下结构化推理格式:
<reasoning>
[阿拉伯语分步推理过程]
</reasoning>
<answer>
[阿拉伯语最终答案]
</answer>
使用示例
from unsloth import FastLanguageModel
max_seq_length = 1024
lora_rank = 64
model, tokenizer = FastLanguageModel.from_pretrained(
model_name = "Omartificial-Intelligence-Space/Diraya-3B-Instruct-Ar",
max_seq_length = max_seq_length,
load_in_4bit = True,
fast_inference = True,
max_lora_rank = lora_rank,
)
system_prompt = """
仅使用阿拉伯语以下列格式响应:
<reasoning>
...
</reasoning>
<answer>
...
</answer>
"""
user_question = "每天,温迪给每只鸡喂三杯混合饲料。鸡群分三次进食。早上给鸡群15杯饲料,下午再给25杯。如果温迪的鸡群有20只鸡,晚餐需要准备多少杯饲料?"
messages = [
{"role": "system", "content": system_prompt},
{"role": "user", "content": user_question}
]
input_text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(input_text, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=512,
temperature=0.7,
top_p=0.95
)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
训练数据
主要微调数据集:
训练与评估结果
训练过程

图示:训练步数中的奖励组成变化,展示模型在不同奖励函数下的性能演进
训练采用多重奖励函数优化模型表现:
- 正确性奖励(红色):衡量生成正确答案的能力
- 整数奖励(蓝色):确保输出有效数值
- 格式奖励(紫色/灰色):促进XML结构遵循
- XML计数奖励(黄色):精细调整XML标签位置和完整性
如图所示,模型在所有奖励维度上均呈现持续提升。奖励上限值表明模型能同时满足多重优化标准。这种多目标训练方法使模型不仅能输出正确答案,还能提供清晰、结构化的推理过程。
该模型在阿拉伯语数学推理任务中表现优异,特别擅长:
- 生成结构化的推理步骤
- 遵循XML输出格式要求
- 解决多步骤问题并得出正确数值答案
引用
若在研究中使用本模型,请引用:
@misc{diraya3b,
title={迪拉亚-3B-阿拉伯语指令模型:阿拉伯语推理专用语言模型},
author={Omartificial-Intelligence-Space},
year={2025},
howpublished={\url{https://huggingface.co/Omartificial-Intelligence-Space/Diraya-3B-Instruct-Ar}}
}
致谢
本模型基于Qwen团队的Qwen2.5-3B模型构建,并采用了Unsloth的优化技术。我们感谢他们对语言建模领域的宝贵贡献。
@misc{qwen2.5,
title = {Qwen2.5:基础模型盛会},
url = {https://qwenlm.github.io/blog/qwen2.5/},
author = {Qwen团队},
month = {9月},
year = {2024}
}
@article{qwen2,
title={Qwen2技术报告},
author={杨安、鲍松阳、边远辉、郑波、余博文、周畅、李成鹏、李成源、刘大一恒、黄飞、董冠廷、魏浩然、林欢、唐家隆、王家林、杨健、涂建宏、张建伟、马建新、徐瑾、周靖仁、白金泽、何金正、林俊阳、党凯、卢克明、陈可钦、杨可欣、李梅、薛明峰、倪娜、张培、王鹏、彭茹、门锐、高瑞泽、林润基、王世杰、白帅、谭思南、朱天航、李天浩、刘天宇、葛文斌、邓晓东、周晓欢、任兴章、张新宇、魏西频、任宣成、范阳、姚洋、张义昌、万宇、楚云飞、刘雨琼、崔泽宇、张振如、范志豪},
journal={arXiv预印本 arXiv:2407.10671},
year={2024}
}