language:
- ar
- en
thumbnail: null
tags:
- 阿拉伯语
- 英语
- 大语言模型
- 解码器
- 因果语言模型
- Jais系列
license: apache-2.0
pipeline_tag: text-generation
Jais系列模型卡
Jais系列模型是一组全面的英阿双语大语言模型(LLMs)。这些模型专为阿拉伯语优化,同时具备强大的英语能力。我们发布了两类基础模型变体:
- 从头预训练的模型(
jais-family-*
)
- 基于Llama-2自适应预训练的模型(
jais-adapted-*
)
本次发布包含8种规模的20个模型,参数量从5.9亿到700亿不等,训练数据涵盖高达1.6万亿token的阿拉伯语、英语和代码数据。所有预训练模型都经过指令微调(*-chat
),使用精心筛选的阿拉伯语和英语指令数据。
我们希望通过这次大规模发布加速阿拉伯语NLP研究,并为阿拉伯语社区及双语用户开启丰富下游应用。我们为阿拉伯语模型成功验证的训练与自适应技术,可扩展至其他低资源和中资源语言。
模型详情
- 开发团队: Inception, Cerebras Systems
- 支持语言: 阿拉伯语(现代标准阿拉伯语)和英语
- 输入: 纯文本数据
- 输出: 文本生成
- 模型规模: 5.9亿、13亿、27亿、67亿、70亿、130亿、300亿、700亿参数
- 演示版: 访问在线演示
- 许可证: Apache 2.0
模型架构
本系列所有模型均采用基于Transformer的解码器架构(GPT-3风格的自回归语言模型)。
Jais原生模型(jais-family-*
)采用从头训练策略,整合了SwiGLU非线性激活函数和ALiBi位置编码。这些架构增强使模型能够处理长序列,提升上下文理解与精确度。
Jais自适应模型(jais-adapted-*
)基于Llama-2构建,采用RoPE位置嵌入和分组查询注意力机制。我们通过添加来自Jais-30b词汇表的32,000个阿拉伯语新token扩展了分词器,使计算效率提升3倍以上。新阿拉伯语token的嵌入初始化分为两步:首先利用共享英语token学习从Jais-30b到Llama-2嵌入空间的线性投影,再将此投影应用于转换现有的Jais-30b阿拉伯语嵌入。
快速开始
以下是模型使用示例代码。注意加载模型时需要启用trust_remote_code=True
参数。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "inceptionai/jais-family-6p7b"
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
def get_response(text, tokenizer=tokenizer, model=model):
input_ids = tokenizer(text, return_tensors="pt").input_ids
inputs = input_ids.to(device)
input_len = inputs.shape[-1]
generate_ids = model.generate(
inputs,
top_p=0.9,
temperature=0.3,
max_length=2048,
min_length=input_len + 4,
repetition_penalty=1.2,
do_sample=True,
)
response = tokenizer.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
)[0]
return response
text = "عاصمة دولة الإمارات العربية المتحدة ه"
print(get_response(text))
text = "The capital of UAE is"
print(get_response(text))
训练详情
预训练数据
Jais系列模型使用高达1.6万亿token的多样化英语、阿拉伯语和代码数据进行训练,数据来源包括:
- 网页数据: 公开网页、维基百科、新闻文章和社交媒体内容
- 代码数据: 多种编程语言代码,增强模型推理能力
- 书籍数据: 精选阿拉伯语和英语书籍,提升长文本连贯性
- 科学文献: ArXiv论文子集,强化推理与长上下文处理
- 合成数据: 通过内部机器翻译系统将高质量英语资源(如维基百科)译为阿拉伯语
我们对数据进行了严格预处理和去重。阿拉伯语数据采用定制流程确保语言质量,详见Jais论文。
- Jais原生预训练:采用阿拉伯语:英语:代码=1:2:0.4的比例混合数据,解决阿拉伯语数据稀缺问题
- Jais自适应预训练:使用约3340亿阿拉伯语token与英语/代码数据混合,根据不同模型规模调整比例
微调数据
所有聊天模型均使用阿拉伯语和英语的单轮/多轮问答对进行微调。数据来源包括开源指令数据集(经主题和风格筛选)和内部人工标注数据,辅以机器翻译、蒸馏和模型自对话生成的合成数据。最终指令微调数据集包含约1000万英语和400万阿拉伯语问答对。
训练流程
原生预训练:文档用EOS token分隔并自回归训练,损失函数作用于所有token。Jais-30b模型通过渐进式扩展(从2k到8K再到16K)支持长上下文,初期快速训练短文本,后期逐步引入长文档。
自适应预训练:首先初始化新分词器和阿拉伯语嵌入(如模型架构所述)。训练分两阶段:第一阶段冻结主干仅训练嵌入(使用150亿双语token);第二阶段解冻主干进行全参数持续预训练。
指令微调:每个训练样本包含单轮/多轮提示及其响应。通过掩码提示token的损失并打包样本,提升批次处理效率。
训练超参数(Jais-family-6p7b)
超参数 |
值 |
精度 |
fp32 |
优化器 |
AdamW |
学习率 |
0至0.01563(≤112预热步) 0.01563至0.000443(>112且≤143721步) |
权重衰减 |
0.1 |
批次大小 |
1632 |
上下文长度 |
2048 |
训练步数 |
143721 |
计算基础设施
训练在Condor Galaxy(CG)超级计算平台完成。单个CG包含64台Cerebras CS-2晶圆级引擎(WSE-2),每台配备40GB SRAM,总算力达960 PetaFLOP/s。
评估
我们使用LM-harness在零样本设置下对Jais模型进行全面评估,涵盖以下维度:
- 知识:事实性问题回答能力
- 推理:需逻辑推理的问题解答
- 错误信息/偏见:生成虚假/误导信息的倾向性评估
阿拉伯语评估结果
(此处保留原始表格结构,仅翻译表头和数据说明)
阿拉伯语基准测试通过内部机器翻译系统翻译并经阿拉伯语语言学家审核。标*的测试为原生阿拉伯语基准,详见Jais论文。另包含基于地区知识的原生阿拉伯语基准ArabicMMLU。
英语评估结果
(此处保留原始表格结构,仅翻译表头)
GPT-4评估
除LM-Harness外,我们还采用GPT-4作为评判员进行开放式生成评估。在Vicuna测试集的80个固定提示(英语提示由语言学家译为阿拉伯语)上测量模型响应的 pairwise胜率。下图比较了Jais系列新版本与之前版本的性能:
(保留原始图表说明文字的中文翻译)
使用场景
我们在完全开源许可下发布Jais系列模型。从5.9亿到700亿参数的模型规模覆盖广泛用例,潜在应用包括:
研究场景:
- 自然语言理解与生成任务
- 双语预训练模型的文化对齐机制分析
- 阿拉伯语文化语言现象的定量研究
商业应用:
- 面向阿拉伯语用户的聊天助手开发
- 本地市场与客户趋势的情感分析
- 阿拉伯语-英语双语文档摘要
目标受益群体:
- 阿拉伯语NLP研究人员
- 面向阿拉伯语受众的企业
- 需集成阿拉伯语能力的开发者
非适用场景
虽然Jais系列是强大的英阿双语模型,仍需注意其局限性。禁止将模型用于任何违反法律法规的行为,包括但不限于:
- 恶意用途:生成有害、误导或不适当内容
- 敏感信息处理:涉及个人/机密数据的场景
- 多语言泛化:不应假定模型对其他语言/方言具有同等能力
- 高风险决策:未经人工监督的医疗/法律/金融决策
偏见、风险与限制
Jais系列基于公开数据和Inception精选数据训练。尽管我们采用多种技术减少偏见,但与其他LLM类似,模型仍可能表现出某些偏见。微调版本仅限英阿双语问答,对其他语言查询可能产生不适当响应。
使用Jais即表示您知悉并接受:与所有大语言模型一样,它可能生成错误、误导或冒犯性内容。这些信息不作为建议,我们不对使用后果负责。我们持续改进模型能力,欢迎任何反馈。
© Inception Institute of Artificial Intelligence Ltd. JAIS依据Apache 2.0许可证提供。除非符合许可证要求,否则不得使用JAIS。许可证副本见https://www.apache.org/licenses/LICENSE-2.0。
除非法律要求或以书面同意,JAIS按"原样"分发,不作任何明示或默示担保。详见许可证的具体权限和限制条款。
摘要
我们发布Jais系列英阿双语模型。广泛的预训练规模、英语模型阿拉伯语自适应方案以及全系列指令微调,为阿拉伯语场景解锁了丰富应用。通过这次发布,我们希望为阿拉伯语NLP研究者和企业提供比英语中心模型更具文化理解力的原生阿拉伯语模型。我们的预训练、微调和自适应技术可扩展至其他低/中资源语言,为本地化语境打造专属模型铺平道路。
引用信息
(保留原始bibtex格式,仅翻译注释性文字)