language:
- ar
- en
thumbnail: null
tags:
- 阿拉伯语
- 英语
- 大语言模型
- 解码器
- 因果语言模型
license: apache-2.0
pipeline_tag: 文本生成
Jais-13b
这是一个拥有130亿参数、支持阿拉伯语和英语的双语预训练大语言模型,训练数据集包含720亿阿拉伯语词元和2790亿英语/代码词元。阿拉伯语数据迭代训练了1.6个周期(英语/代码数据为1个周期),总计训练了3950亿词元。
该模型基于仅解码器的Transformer架构(GPT-3),采用SwiGLU非线性激活函数,并实现了ALiBi位置嵌入技术,使其能够外推处理长序列,提升上下文处理能力和模型精度。
快速开始
以下是使用该模型的示例代码。注意该模型需要自定义模型类,因此在加载时必须启用trust_remote_code=True
。此代码已在transformers==4.28.0
版本测试通过。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "asas-ai/jais_13B_8bit"
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
def get_response(text,tokenizer=tokenizer,model=model):
input_ids = tokenizer(text, return_tensors="pt").input_ids
inputs = input_ids.to(device)
input_len = inputs.shape[-1]
generate_ids = model.generate(
inputs,
top_p=0.9,
temperature=0.3,
max_length=200-input_len,
min_length=input_len + 4,
repetition_penalty=1.2,
do_sample=True,
)
response = tokenizer.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
)[0]
return response
text= "عاصمة دولة الإمارات العربية المتحدة ه"
print(get_response(text))
text = "The capital of UAE is"
print(get_response(text))
模型详情
使用范围
我们基于完整开源协议发布Jais 13B模型,欢迎所有反馈与合作机会。
作为Inception-MBZUAI-Cerebras三方合作的首个成果,该模型发布时在阿拉伯语综合测试套件中实现了最先进性能(详见技术报告)。潜在下游应用包括:
目标受益群体:
- 学术界:阿拉伯语自然语言处理研究者
- 企业用户:面向阿拉伯语受众的公司
- 开发者:需要集成阿拉伯语能力的应用开发者
非适用场景
虽然Jais-13b是强大的阿拉伯语-英语双语模型,但必须认识其局限性及潜在滥用风险。禁止以任何违反适用法律法规的方式使用该模型。以下为不适用场景示例:
- 恶意用途:包括但不限于:
- 生成仇恨言论、暴力或歧视性内容
- 传播虚假信息或假新闻
- 从事或促进非法活动
- 敏感信息:不得用于处理或生成个人隐私、机密或敏感信息
- 多语言通用性:该模型专为阿拉伯语和英语优化,不应假设其对其他语言/方言具有同等能力
- 高风险决策:未经人工监督不得用于医疗、法律、金融或安全关键决策
偏见、风险与局限
模型训练数据源自公开数据集(部分由Inception策划),我们采用了多种技术减少模型偏见。但与所有大语言模型类似,该模型仍可能表现出某些偏见。
本模型专为阿拉伯语和英语使用者设计,对其他语言查询可能无法生成恰当响应。
使用者须知:与任何大语言模型相同,本模型可能生成错误、误导性或冒犯性内容。这些信息不作为建议,也不应被依赖。我们持续开发更具能力的模型,欢迎任何使用反馈。
训练详情
训练数据
预训练使用了来自网络的多源双语语料库及公开的英语/代码数据集。阿拉伯语数据通过网页、维基百科、新闻、书籍及社交媒体内容收集,并通过内部机器翻译系统将高质量英文资源(如英文维基和书籍)译为阿拉伯语进行数据增强。详见技术报告。
训练流程
训练在Condor Galaxy 1 (CG-1)超级计算平台完成。
训练超参数
超参数 |
值 |
精度 |
fp32 |
优化器 |
AdamW |
学习率 |
0至0.012(≤95步) |
|
0.012至0.0012(>95步) |
权重衰减 |
0.1 |
批量大小 |
1920 |
训练步数 |
100551 |
评估
我们对Jais进行了全面评估,与其他主流基础语言模型在英语和阿拉伯语维度进行对比,评估标准包括:
- 知识性:事实性问题回答能力
- 推理能力:需逻辑推理的问题解答
- 错误信息/偏见:生成虚假/误导信息的倾向性及中立性
阿拉伯语评估结果(数值越高越好):
模型 |
平均分 |
EXAMS |
MMLU (M) |
LitQA |
Hellaswag |
PIQA |
BoolQA |
SituatedQA |
ARC-C |
OpenBookQA |
TruthfulQA |
CrowS-Pairs |
Jais (13B) |
46.5 |
40.4 |
30.0 |
58.3 |
57.7 |
67.6 |
62.6 |
42.5 |
35.8 |
32.4 |
41.1 |
58.4 |
BLOOM (7.1B) |
40.9 |
34.0 |
28.2 |
37.1 |
40.9 |
58.4 |
59.9 |
39.1 |
27.3 |
28.0 |
44.4 |
53.5 |
LLaMA2 (13B) |
38.1 |
29.2 |
28.4 |
32.0 |
34.3 |
52.9 |
63.8 |
36.4 |
24.3 |
30.0 |
45.5 |
49.9 |
(为简洁起见省略英语任务结果,完整评估详见技术报告)
引用
@misc{sengupta2023jais,
title={Jais和Jais-chat:以阿拉伯语为核心的基础与指令调优开放生成大语言模型},
author={Neha Sengupta等},
year={2023},
eprint={2308.16149},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
版权归属 Inception Institute of Artificial Intelligence Ltd.