language:
- ar
- en
thumbnail: null
tags:
- 阿拉伯语
- 英语
- 大语言模型
- 解码器
- 因果语言模型
- Jais系列
license: apache-2.0
pipeline_tag: text-generation
Jais系列模型卡
Jais系列模型是一组全面的英阿双语大语言模型(LLMs)。这些模型经过优化,在阿拉伯语表现卓越的同时兼具强大的英语能力。我们发布了两类基础模型变体:
- 从头预训练的模型(
jais-family-*
)
- 基于Llama-2自适应预训练的模型(
jais-adapted-*
)
本次发布包含8种规模共20个模型,参数量从5.9亿到700亿不等,训练数据涵盖最高1.6万亿个阿拉伯语、英语和代码标记。所有预训练模型均使用精选的阿拉伯语和英语指令数据进行了对话式指令微调(*-chat
)。
我们希望通过这次大规模发布加速阿拉伯语NLP研究,并为阿拉伯语社区及双语用户开启丰富的下游应用场景。我们为阿拉伯语模型成功验证的训练与自适应技术,可扩展至其他中低资源语言。
模型详情
- 开发机构: Inception, Cerebras Systems
- 支持语言: 阿拉伯语(现代标准阿拉伯语)和英语
- 输入类型: 纯文本
- 输出类型: 文本生成
- 模型规模: 5.9亿、13亿、27亿、67亿、70亿、130亿、300亿、700亿参数
- 演示平台: 访问在线演示
- 许可协议: Apache 2.0
模型架构
本系列所有模型均采用基于Transformer的解码器架构(GPT-3风格)的自回归语言模型。
Jais原生模型(jais-family-*
)采用从零训练策略,集成SwiGLU非线性激活函数和ALiBi位置编码。这些架构增强使模型能够外推长序列,从而提升上下文处理能力和精度。
Jais自适应模型(jais-adapted-*
)基于Llama-2构建,采用RoPE位置嵌入和分组查询注意力机制。我们通过添加来自Jais-30b词汇表的32,000个阿拉伯语新标记来扩展分词器,使生育率提升3倍以上。为初始化这些新阿拉伯语标记的嵌入向量,我们首先利用共享英语标记学习从Jais-30b嵌入空间到Llama嵌入空间的线性投影,再将此投影应用于转换现有的Jais-30b阿拉伯语嵌入。
快速开始
以下是使用模型的示例代码。注意该模型需要自定义模型类,加载时必须启用trust_remote_code=True
。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "inceptionai/jais-family-2p7b"
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
def get_response(text, tokenizer=tokenizer, model=model):
input_ids = tokenizer(text, return_tensors="pt").input_ids
inputs = input_ids.to(device)
input_len = inputs.shape[-1]
generate_ids = model.generate(
inputs,
top_p=0.9,
temperature=0.3,
max_length=2048,
min_length=input_len + 4,
repetition_penalty=1.2,
do_sample=True,
)
response = tokenizer.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
)[0]
return response
text = "عاصمة دولة الإمارات العربية المتحدة ه"
print(get_response(text))
text = "The capital of UAE is"
print(get_response(text))
训练详情
预训练数据
Jais系列模型使用高达1.6万亿标记的多样化英语、阿拉伯语和代码数据进行训练,数据来源包括:
- 网页数据: 公开网页、维基百科、新闻文章和社交媒体内容
- 代码数据: 多种编程语言代码以增强推理能力
- 书籍数据: 精选阿拉伯语和英语书籍提升长程上下文建模
- 科学文献: 部分ArXiv论文提升推理能力
- 合成数据: 通过内部机器翻译系统将高质量英语资源(如维基百科)译为阿拉伯语
我们对数据进行了深度预处理和去重。阿拉伯语数据采用定制流程筛选高质量语言内容,详见Jais论文。
- Jais原生预训练:采用阿拉伯语:英语:代码=1:2:0.4的比例混合数据,解决阿拉伯语数据稀缺问题
- Jais自适应预训练:使用约3340亿阿拉伯语标记与英语/代码数据混合,根据不同模型规模调整比例以保持英语能力
(后续表格数据因格式复杂,建议直接参考原文表格进行翻译)
评估结果
我们使用LM-harness在零样本设置下对Jais模型进行全面评估,涵盖:
- 知识性:事实性问题回答能力
- 推理能力:需逻辑推理的问题解答
- 错误信息/偏见:生成虚假/误导信息的倾向性评估
(具体评估分数表格因格式复杂,建议直接参考原文进行翻译)
使用场景
我们在完全开源许可下发布Jais系列模型,欢迎反馈与合作机会。该双语模型套件覆盖5.9亿至700亿参数规模,适用场景包括:
-
研究领域:
- 自然语言理解与生成任务
- 双语模型的文化对齐机制可解释性分析
- 阿拉伯语文化语言现象的量化研究
-
商业应用:
- 阿拉伯语聊天助手开发
- 本地市场情感分析
- 双语文档摘要生成
目标受益群体:
- 学术界:阿拉伯语NLP研究者
- 企业用户:面向阿拉伯语受众的企业
- 开发者:需集成阿拉伯语能力的应用开发者
非适用场景
禁止将模型用于任何违法场景,包括但不限于:
- 恶意用途:生成有害、误导或不适当内容
- 敏感信息:处理个人/机密信息
- 多语言泛化:仅优化阿拉伯语和英语能力
- 高风险决策:需人工监督的医疗/法律/金融决策
局限性声明
尽管我们已采用多种技术减少偏见,但与其他大模型类似,Jais系列仍可能存在某些偏见。微调版本仅适用于阿拉伯语和英语查询响应。使用者应知悉模型可能生成错误/误导/冒犯性内容,我们不对使用后果负责。
版权归属Inception Institute of Artificial Intelligence Ltd。JAIS依据Apache 2.0许可证发布,使用者需遵守许可条款。
核心贡献
我们发布的Jais系列阿拉伯语-英语双语模型,通过广泛的预训练规模、英语模型阿拉伯化方案以及全尺寸微调,为阿拉伯语场景解锁了丰富应用可能。本次发布旨在让阿拉伯语NLP研究者和企业更容易获取大模型技术,提供比英语中心模型更优秀的本土文化理解能力。我们的预训练、微调与自适应策略可扩展至其他中低资源语言,推动面向本地语境的语言专属模型发展。
引用信息
(保持原文bibtex格式不变)