语言:
- 阿拉伯语
- 英语
缩略图: null
标签:
- 阿拉伯语
- 英语
- 大语言模型
- 解码器
- 因果语言模型
许可证: apache-2.0
管道标签: 文本生成
Jais-30b-v1
这是一个拥有300亿参数、针对阿拉伯语和英语的双语预训练大语言模型,训练数据集包含1260亿阿拉伯语词元、2510亿英语词元和500亿代码词元。
该模型与我们之前发布的Jais-13b类似,基于仅解码器的Transformer架构(GPT-3),并采用SwiGLU非线性激活函数。它实现了ALiBi位置嵌入,使模型能够外推到长序列长度,提供更好的上下文处理能力和模型精度。
快速开始
以下是使用该模型的示例代码。请注意,该模型需要自定义模型类,因此用户在加载模型时必须启用trust_remote_code=True
。此外,此代码已在transformers==4.32.0
上测试。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "core42/jais-30b-v1"
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
def get_response(text,tokenizer=tokenizer,model=model):
input_ids = tokenizer(text, return_tensors="pt").input_ids
inputs = input_ids.to(device)
input_len = inputs.shape[-1]
generate_ids = model.generate(
inputs,
top_p=0.9,
temperature=0.3,
max_length=200,
min_length=input_len + 4,
repetition_penalty=1.2,
do_sample=True,
)
response = tokenizer.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
)[0]
return response
text= "عاصمة دولة الإمارات العربية المتحدة ه"
print(get_response(text))
text = "The capital of UAE is"
print(get_response(text))
模型详情
预期用途
我们在完全开源许可下发布Jais 30B模型,欢迎所有反馈和合作机会。
这是Core42继Jais-13b之后的第二次发布,在发布时已在全面的阿拉伯语测试套件中达到最先进水平(详见评估部分)。一些潜在的下游用途包括:
我们希望以下受众能从我们的模型中受益:
- 学术界:研究阿拉伯语自然语言处理的学者
- 企业:针对阿拉伯语受众的公司
- 开发者:在应用中集成阿拉伯语能力的开发者
非适用范围
虽然Jais-30b是一个强大的阿拉伯语和英语双语模型,但必须了解其局限性和潜在滥用风险。禁止以任何违反适用法律或法规的方式使用该模型。以下是一些不应使用该模型的示例场景:
- 恶意使用:不得用于生成有害、误导或不适当内容,包括但不限于:
- 生成或宣扬仇恨言论、暴力或歧视
- 传播错误信息或假新闻
- 参与或促进非法活动
- 敏感信息:不得用于处理或生成个人、机密或敏感信息
- 跨语言泛化:Jais-30b是双语模型,针对阿拉伯语和英语优化,不应假设其对其他语言或方言具有同等熟练度
- 高风险决策:未经人工监督,不得用于做出高风险决策,包括医疗、法律、财务或安全关键决策
偏见、风险与限制
该模型基于公开可用数据训练,部分数据由Inception策划。我们采用了多种技术减少模型偏见,但与所有大语言模型一样,该模型仍可能表现出某些偏见。
该模型作为面向阿拉伯语和英语使用者的AI助手训练,仅限于这两种语言的查询响应,可能无法对其他语言查询生成适当响应。
使用Jais即表示您承认并接受,与任何大语言模型一样,它可能生成不正确、误导性和/或冒犯性信息或内容。这些信息不作为建议,不应以任何方式依赖,我们不对其内容或使用后果负责。我们持续开发能力更强的模型,欢迎任何反馈。
版权所有Inception Institute of Artificial Intelligence Ltd. JAIS根据Apache License 2.0("许可证")提供。除非符合许可证,否则不得使用JAIS。您可在https://www.apache.org/licenses/LICENSE-2.0获取许可证副本。
除非适用法律要求或书面同意,JAIS按"原样"分发,不提供任何明示或暗示的担保或条件。请参阅许可证的具体语言权限和限制。
训练详情
训练数据
为预训练Jais-30b,我们使用了来自网络和其他来源的多样化双语语料库,以及公开可用的英语和代码数据集。收集阿拉伯语数据时,我们使用了多种来源,包括网页、维基百科文章、新闻文章、阿拉伯语书籍和社交网络内容。我们通过使用内部机器翻译系统将英语翻译为阿拉伯语来扩充阿拉伯语数据量,仅限于高质量英语资源如英语维基百科和英语书籍。我们的数据获取策略与Jais-13b中所述类似。
训练过程
训练在Condor Galaxy 1 (CG-1)超级计算机平台上进行。
训练超参数
超参数 |
值 |
精度 |
fp32 |
优化器 |
AdamW |
学习率 |
0至0.012(≤69步) |
|
0.012至0.005(>69且<7万步) |
|
0.005至0.0008(>7万-7.9万步) |
权重衰减 |
0.1 |
批量大小 |
2640 |
训练步数 |
7.9万 |
评估
我们对Jais进行了全面评估,并与其他领先的基础语言模型进行了基准测试,重点关注英语和阿拉伯语。评估标准涵盖多个维度,包括:
- 知识:模型回答事实性问题的能力
- 推理:模型回答需要推理的问题的能力
- 错误信息/偏见:评估模型生成虚假或误导性信息的倾向及其中立性
阿拉伯语评估结果:
模型 |
平均分 |
EXAMS |
MMLU (M) |
LitQA |
Hellaswag |
PIQA |
BoolQA |
SituatedQA |
ARC-C |
OpenBookQA |
TruthfulQA |
CrowS-Pairs |
Jais (30B) |
47.8 |
40 |
30.8 |
58.3 |
60.1 |
70 |
68.7 |
43.3 |
38.5 |
32.2 |
42.6 |
56.9 |
Jais (13B) |
46.5 |
40.4 |
30.0 |
58.3 |
57.7 |
67.6 |
62.6 |
42.5 |
35.8 |
32.4 |
41.1 |
58.4 |
acegpt-13b |
42.5 |
34.7 |
29.9 |
42.3 |
45.6 |
60.3 |
63.2 |
38.1 |
32.8 |
32.2 |
45.1 |
56.4 |
acegpt-7b |
42.4 |
35.4 |
29 |
46.3 |
43.8 |
60.4 |
63.4 |
37.2 |
31.1 |
32 |
45.3 |
55.4 |
BLOOM (7.1B) |
40.9 |
34.0 |
28.2 |
37.1 |
40.9 |
58.4 |
59.9 |
39.1 |
27.3 |
28.0 |
44.4 |
53.5 |
LLaMA (30B) |
38.8 |
27.9 |
28.5 |
32.6 |
35 |
52.7 |
63.7 |
34.9 |
25.7 |
28.6 |
47.2 |
49.8 |
LLaMA2 (13B) |
38.1 |
29.2 |
28.4 |
32.0 |
34.3 |
52.9 |
63.8 |
36.4 |
24.3 |
30.0 |
45.5 |
49.9 |
英语评估结果:
模型 |
平均分 |
MMLU |
RACE |
Hellaswag |
PIQA |
BoolQA |
SituatedQA |
ARC-C |
OpenBookQA |
Winogrande |
TruthfulQA |
CrowS-Pairs |
Jais (30B) |
56.2 |
34.5 |
39.8 |
75.1 |
79.5 |
74.3 |
49.9 |
45.9 |
41.2 |
68.4 |
36.5 |
73.3 |
Jais (13B) |
53.9 |
31.5 |
38.3 |
71.8 |
77.9 |
67.6 |
48.2 |
41.9 |
40.6 |
68.4 |
35.4 |
71.5 |
OPT-30b |
59.4 |
38.6 |
45.2 |
71.7 |
78.5 |
87.3 |
63.4 |
44.8 |
40.2 |
72.2 |
38.7 |
72.7 |
MPT-30b |
57.3 |
38.8 |
39.7 |
80 |
80.8 |
73.9 |
45.6 |
49.2 |
43.2 |
71.1 |
38.3 |
69.3 |
Llama-30b |
55.4 |
37 |
40.2 |
79.2 |
80.1 |
68.3 |
44 |
45.3 |
42 |
72.7 |
42.3 |
58.2 |
Falcon (40B) |
54.8 |
31.3 |
37.1 |
76.4 |
80.5 |
73.7 |
43.2 |
43.6 |
44.2 |
67.2 |
34.3 |
72.3 |
引用
@misc{sengupta2023jais,
title={Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open Generative Large Language Models},
author={Neha Sengupta and Sunil Kumar Sahu and Bokang Jia and Satheesh Katipomu and Haonan Li and Fajri Koto and Osama Mohammed Afzal and Samta Kamboj and Onkar Pandit and Rahul Pal and Lalit Pradhan and Zain Muhammad Mujahid and Massa Baali and Alham Fikri Aji and Zhengzhong Liu and Andy Hock and Andrew Feldman and Jonathan Lee and Andrew Jackson and Preslav Nakov and Timothy Baldwin and Eric Xing},
year={2023},
eprint={2308.16149},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
版权所有Inception Institute of Artificial Intelligence Ltd.