base_model: inceptionai/jais-family-2p7b
language:
- ar
- en
thumbnail: null
tags:
- 阿拉伯语
- 英语
- 大语言模型
- 解码器
- 因果语言模型
- jais家族
license: apache-2.0
pipeline_tag: text-generation
Jais家族模型卡
Jais模型家族是一系列全面的英阿双语大语言模型(LLMs)。这些模型专为阿拉伯语优化,同时具备强大的英语能力。我们发布的基础模型包含两种变体:
- 从头预训练的模型(
jais-family-*
)
- 基于Llama-2自适应预训练的模型(
jais-adapted-*
)
本次发布包含8种规模共20个模型,参数量从5.9亿到700亿不等,训练数据涵盖1.6万亿阿拉伯语、英语和代码标记。所有预训练模型都经过指令微调(*-chat
),使用精心筛选的阿拉伯语和英语指令数据。
我们希望通过这次大规模发布加速阿拉伯语NLP研究,并为阿拉伯语社区及双语用户开启丰富下游应用。我们为阿拉伯语模型验证的训练与自适应技术,可扩展至其他中低资源语言。
模型详情
- 开发团队:Inception, Cerebras Systems
- 支持语言:阿拉伯语(现代标准阿拉伯语)和英语
- 输入:纯文本数据
- 输出:文本生成
- 模型规模:5.9亿/13亿/27亿/67亿/70亿/130亿/300亿/700亿参数
- 演示:访问在线演示
- 许可证:Apache 2.0
模型架构
本系列所有模型均为基于Transformer的自回归解码器架构(GPT-3)。
Jais原生模型(jais-family-*
)采用从头训练策略,集成SwiGLU非线性激活函数和ALiBi位置编码。这些架构增强使模型能处理长序列,提升上下文处理能力。
Jais自适应模型(jais-adapted-*
)基于Llama-2构建,采用RoPE位置嵌入和分组查询注意力。我们通过添加32,000个来自Jais-30b词表的阿拉伯语新标记来扩展分词器,计算效率提升3倍以上。新阿拉伯语标记的嵌入初始化分为两步:首先在共享英语标记上学习Jais-30b到Llama-2嵌入空间的线性投影,然后将该投影应用于现有Jais-30b阿拉伯语嵌入。
快速开始
以下是使用示例代码。注意加载模型需启用trust_remote_code=True
:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "inceptionai/jais-family-2p7b-chat"
prompt_eng = "### Instruction:你名叫'Jais',得名于阿联酋最高峰杰贝尔哈菲特山。由阿联酋'Inception'团队打造。你是一个乐于助人、尊重他人且诚实的助手。在确保安全的前提下尽可能提供帮助。请完成[|Human|]与[|AI|]的对话:\n### Input: [|Human|] {Question}\n[|AI|]\n### Response :"
prompt_ar = "### Instruction:اسمك \"جيس\" وسميت على اسم جبل جيس اعلى جبل في الامارات. تم بنائك بواسطة Inception في الإمارات. أنت مساعد مفيد ومحترم وصادق. أجب دائمًا بأكبر قدر ممكن من المساعدة، مع الحفاظ على البقاء أمناً. أكمل المحادثة بين [|Human|] و[|AI|] :\n### Input:[|Human|] {Question}\n[|AI|]\n### Response :"
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
def get_response(text, tokenizer=tokenizer, model=model):
input_ids = tokenizer(text, return_tensors="pt").input_ids
inputs = input_ids.to(device)
input_len = inputs.shape[-1]
generate_ids = model.generate(
inputs,
top_p=0.9,
temperature=0.3,
max_length=2048,
min_length=input_len + 4,
repetition_penalty=1.2,
do_sample=True,
)
response = tokenizer.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
)[0]
response = response.split("### Response :")[-1]
return response
ques = "ما هي عاصمة الامارات؟"
text = prompt_ar.format_map({'Question': ques})
print(get_response(text))
ques = "What is the capital of UAE?"
text = prompt_eng.format_map({'Question': ques})
print(get_response(text))
训练详情
预训练数据
Jais模型家族训练数据达1.6万亿标记,涵盖英语、阿拉伯语和代码:
- 网页:公开网页、维基百科、新闻、社交媒体内容
- 代码:多种编程语言数据增强推理能力
- 书籍:精选公开阿拉伯语/英语书籍提升长程上下文建模
- 科学文献:ArXiv论文子集提升推理能力
- 合成数据:通过内部机器翻译系统扩充高质量阿拉伯语数据
数据经过严格去重和预处理。阿拉伯语数据采用定制流程过滤语言质量,详见Jais论文。
- Jais原生预训练:采用阿拉伯语:英语:代码=1:2:0.4比例,解决阿拉伯语数据稀缺问题
- Jais自适应预训练:使用约3340亿阿拉伯语标记与英语/代码混合,不同规模模型采用不同混合比例
(详细数据量表见原文)
微调数据
所有聊天模型使用约1000万英语和400万阿拉伯语单轮/多轮指令数据微调,包含开源数据集和内部人工标注数据,辅以机器翻译、蒸馏和模型自对话生成的合成数据。
训练流程
- 原生预训练:文档用EOS标记分隔,自回归训练。Jais-30b模型上下文长度从2k逐步扩展到16k
- 自适应预训练:分两阶段:先冻结主干训练阿拉伯语嵌入,再解冻所有参数持续预训练
- 指令微调:将多示例打包为单序列,在提示标记上掩码损失加速训练
(详细超参数表见原文)
计算基础设施
训练在Condor Galaxy(CG)超算平台完成,包含64个Cerebras CS-2晶圆级引擎(WSE-2),总算力达960 PetaFLOP/s。
评估
我们使用LM-harness零样本评估框架对Jais模型进行全方位评估,涵盖:
- 知识:事实性问题回答能力
- 推理:需逻辑推理的问题解答
- 错误信息/偏见:生成虚假/误导信息的倾向性
(详细阿拉伯语/英语评估结果表见原文)
GPT-4评估
除LM-harness外,我们还采用GPT-4-as-a-judge方法在80个Vicuna测试集提示上进行开放式生成评估:

阿拉伯语和英语的GPT-4评估显示,Jais家族模型在两种语言生成质量上均显著优于前代

自适应Jais在阿拉伯语质量显著提升,英语也优于Llama-2指令模型
我们还进行了MT-bench风格的十分制单答案评分:

与早期版本相比,响应质量普遍提升,阿拉伯语改进尤为显著
使用场景
我们在完全开源许可下发布Jais模型家族,欢迎反馈与合作。从5.9亿到700亿参数的模型规模可满足多样化需求:
-
研究:
- 阿拉伯语自然语言理解与生成任务
- 双语模型文化对齐的机制可解释性分析
- 阿拉伯语文化语言现象的定量研究
-
商业应用:
- 阿拉伯语聊天助手开发
- 本地市场情绪分析
- 阿拉伯语-英语文档摘要
目标受益群体:
- 学术界:阿拉伯语NLP研究者
- 企业:阿拉伯语受众定向企业
- 开发者:需集成阿拉伯语能力的应用开发者
非适用场景
禁止将模型用于任何违法用途,包括但不限于:
- 生成有害/误导/不当内容
- 处理敏感个人信息
- 高风险决策(医疗/法律/金融等)
- 非阿拉伯语/英语场景的过度泛化
偏见、风险与限制
虽然我们已采用多种技术减少偏见,但与其他大模型一样,Jais仍可能存在某些偏见。微调模型仅适用于阿拉伯语和英语查询,可能对其他语言产生不当响应。
使用者需知悉:与所有大语言模型一样,Jais可能生成错误/误导/冒犯性内容。该信息不作为建议,我们不对使用后果负责。我们持续改进模型能力,欢迎任何反馈。
版权归属Inception Institute of Artificial Intelligence Ltd。JAIS依据Apache 2.