language:
- ar
- en
thumbnail: null
tags:
- 阿拉伯语
- 英语
- 大语言模型
- 解码器
- 因果语言模型
- jais系列
license: apache-2.0
pipeline_tag: text-generation
Jais系列模型卡
Jais系列模型是一组全面的英阿双语大语言模型(LLMs)。这些模型专精阿拉伯语处理,同时具备强大的英语能力。我们发布两类基础模型变体:
- 从头预训练的模型(
jais-family-*
)
- 基于Llama-2自适应预训练的模型(
jais-adapted-*
)
本次发布包含8种规模的20个模型,参数量从5.9亿到700亿不等,训练数据涵盖1.6万亿阿拉伯语、英语和代码标记。所有预训练模型都经过指令微调(*-chat
),使用精心筛选的阿拉伯语和英语指令数据优化对话能力。
我们希望通过此次大规模发布加速阿拉伯语NLP研究,为阿拉伯语社区和双语用户开启丰富下游应用。我们为阿拉伯语模型成功验证的训练和适配技术,可扩展至其他低中资源语言。
模型详情
- 开发机构: Inception, Cerebras Systems
- 支持语言: 阿拉伯语(现代标准阿拉伯语)和英语
- 输入类型: 纯文本
- 输出类型: 文本生成
- 模型规模: 5.9亿/13亿/27亿/67亿/70亿/130亿/300亿/700亿参数
- 在线演示: 点击访问
- 许可协议: Apache 2.0
模型架构
本系列所有模型均采用基于Transformer的解码器架构(GPT-3风格)的自回归语言模型。
Jais原生模型(jais-family-*
)采用从头训练策略,集成SwiGLU非线性激活函数和ALiBi位置编码。这些架构增强使模型能外推长序列,提升上下文处理精度。
Jais适配模型(jais-adapted-*
)基于Llama-2构建,采用RoPE位置嵌入和分组查询注意力机制。我们通过添加Jais-30b词汇表中的32,000个阿拉伯语新标记扩展了分词器,将计算效率提升3倍以上。新阿拉伯语标记的嵌入初始化分为两步:首先利用共享英语标记学习从Jais-30b到Llama-2的线性投影,然后将该投影应用于转换现有的Jais-30b阿拉伯语嵌入。
快速开始
以下是使用模型的示例代码。注意该模型需要自定义模型类,加载时必须启用trust_remote_code=True
。为获得与我们测试相同的性能,需遵循特定提示格式:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "inceptionai/jais-family-1p3b"
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
def get_response(text, tokenizer=tokenizer, model=model):
input_ids = tokenizer(text, return_tensors="pt").input_ids
inputs = input_ids.to(device)
input_len = inputs.shape[-1]
generate_ids = model.generate(
inputs,
top_p=0.9,
temperature=0.3,
max_length=2048,
min_length=input_len + 4,
repetition_penalty=1.2,
do_sample=True,
)
response = tokenizer.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
)[0]
return response
text = "عاصمة دولة الإمارات العربية المتحدة ه"
print(get_response(text))
text = "The capital of UAE is"
print(get_response(text))
训练详情
预训练数据
Jais系列模型使用多达1.6万亿标记的多样化英语、阿拉伯语和代码数据进行训练,数据来源包括:
- 网页数据:公开网页、维基百科、新闻文章和社交媒体内容
- 代码数据:多种编程语言代码,增强推理能力
- 书籍数据:精选公开阿拉伯语和英语书籍,提升长程上下文建模
- 科学文献:ArXiv论文子集,加强推理能力
- 合成数据:通过内部机器翻译系统将高质量英语资源(如维基百科)译为阿拉伯语
我们采用严格的数据预处理和去重流程。阿拉伯语数据使用定制流程筛选高质量语言内容,详见Jais论文。
- Jais原生预训练:采用阿拉伯语:英语:代码=1:2:0.4的比例混合数据,解决阿拉伯语数据稀缺问题
- Jais适配预训练:使用约3340亿阿拉伯语标记与英语/代码数据混合,根据不同模型规模调整比例
微调数据
所有聊天模型均使用阿拉伯语和英语的单轮/多轮提示-响应对进行微调。数据源包括开源微调数据集和内部人工标注数据,辅以机器翻译、蒸馏和模型自对话生成的合成内容。总计包含约1000万英语和400万阿拉伯语提示-响应对。
训练流程
- 原生预训练:文档用EOS标记分隔,自回归训练损失应用于所有标记。Jais-30b模型通过渐进式扩展(2k→8K→16K)支持长上下文
- 适配预训练:分两阶段:先冻结主干训练阿拉伯语嵌入(150亿标记),后解冻主干进行全参数持续预训练
- 指令微调:将多个训练示例打包到单个序列,仅对响应部分计算损失,提升训练效率
计算基础设施
训练在Condor Galaxy(CG)超级计算平台完成,每个CG包含64个Cerebras CS-2晶圆级引擎(WSE-2),总计算能力达960 PetaFLOP/s。
评估结果
我们使用LM-harness在零样本设置下全面评估Jais模型,涵盖:
- 知识:事实性问题回答能力
- 推理:需逻辑推理的问题解答
- 错误信息/偏见:生成虚假/误导信息的倾向性评估
阿拉伯语评估
阿拉伯语基准测试通过内部机器翻译模型转换并由阿拉伯语语言学家审核。标*的测试为原生阿拉伯语基准,详见Jais论文。新增ArabicMMLU作为基于地区知识的原生阿拉伯语基准。
英语评估
GPT-4评估
除LM-Harness外,我们使用GPT-4作为评判员进行开放式生成评估,在Vicuna测试集的80个提示上测量模型响应的胜率。英语提示由语言学家翻译为阿拉伯语。
使用场景
我们在完全开源许可下发布Jais系列模型,欢迎反馈与合作机会。从5.9亿到700亿参数的规模覆盖广泛用例:
-
研究领域:
- 自然语言理解与生成任务
- 双语模型文化对齐的机理可解释性分析
- 阿拉伯语文化语言现象的定量研究
-
商业应用:
- 阿拉伯语聊天助手开发
- 本地市场情感分析
- 双语文档摘要
目标受益群体:
- 学术界:阿拉伯语NLP研究人员
- 企业:面向阿拉伯语用户的企业
- 开发者:需集成阿拉伯语能力的应用开发者
非适用场景
禁止在违反法律法规的场景下使用模型,包括但不限于:
- 生成有害、误导或不适当内容
- 处理敏感个人信息
- 用于高风险决策(医疗/法律/金融等)
- 非阿拉伯语/英语场景的盲目推广
偏见、风险与限制
虽然我们采用多种技术减少偏见,但与其他LLM类似,该模型仍可能表现出某些偏见。微调版本仅适用于阿拉伯语和英语查询响应。使用者须知:与所有大语言模型一样,本模型可能生成错误、误导或冒犯性内容,不应作为专业建议依赖。我们持续改进模型能力,欢迎使用反馈。
版权归属Inception Institute of Artificial Intelligence Ltd。JAIS依据Apache License 2.0发布,使用者需遵守许可条款。除非法律要求,JAIS按"原样"提供,不附带任何明示或暗示担保。详见许可证具体条款。
总结
我们发布的Jais系列阿拉伯语-英语双语模型,通过多种规模的预训练模型、英语模型阿拉伯语适配方案以及全系列指令微调,为阿拉伯语场景解锁丰富应用。本次发布旨在让阿拉伯语NLP研究者和企业更容易获得大语言模型,提供比英语中心模型更懂阿拉伯文化的原生支持。我们的预训练、微调和适配策略可扩展至其他低中资源语言,为本地化语境打造专属模型铺平道路。
引用信息
@misc{sengupta2023jais,
title={Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models},
author={Neha Sengupta, Sunil Kumar Sahu, Bokang Jia, Satheesh Katipomu, Haonan Li, Fajri Koto, William Marshall, Gurpreet Gosal, Cynthia Liu, Zhiming Chen, Osama Mohammed Afzal, Samta Kamboj, Onkar Pandit, Rahul Pal, Lalit Pradhan, Zain Muhammad Mujahid, Massa Baali, Xudong Han, Sondos Mahmoud Bsharat, Alham Fikri Aji, Zhiqiang Shen, Zhengzhong Liu, Natalia Vassilieva, Joel Hestness, Andy Hock, Andrew Feldman, Jonathan