Jais-13b
这是一个拥有130亿参数的双语(阿拉伯语和英语)预训练大语言模型,训练数据集包含720亿阿拉伯语token和2790亿英语/代码token。阿拉伯语数据迭代训练了1.6个周期(英语/代码数据为1个周期),总计训练了3950亿token。
该模型基于仅解码器的Transformer架构(GPT-3),采用SwiGLU非线性激活函数,并实现了ALiBi位置嵌入技术,使模型能够外推处理长序列,从而提升上下文处理能力和模型精度。
快速开始
以下是使用该模型的示例代码。请注意该模型需要自定义模型类,因此在加载模型时必须启用trust_remote_code=True
。此代码已在transformers==4.28.0
版本测试通过。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "core42/jais-13b"
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
def get_response(text,tokenizer=tokenizer,model=model):
input_ids = tokenizer(text, return_tensors="pt").input_ids
inputs = input_ids.to(device)
input_len = inputs.shape[-1]
generate_ids = model.generate(
inputs,
top_p=0.9,
temperature=0.3,
max_length=200-input_len,
min_length=input_len + 4,
repetition_penalty=1.2,
do_sample=True,
)
response = tokenizer.batch_decode(
generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=True
)[0]
return response
text= "عاصمة دولة الإمارات العربية المتحدة ه"
print(get_response(text))
text = "The capital of UAE is"
print(get_response(text))
模型详情
使用范围
我们基于完整开源协议发布Jais 13B模型,欢迎所有反馈和合作机会。
该模型是Inception-MBZUAI-Cerebras三方合作的首个发布成果,在发布时已通过综合阿拉伯语测试套件达到当时最优水平(详见技术报告)。潜在的下游应用包括:
预期受益群体:
- 学术界:阿拉伯语自然语言处理研究者
- 企业用户:面向阿拉伯语受众的公司
- 开发者:需要在应用中集成阿拉伯语能力的开发人员
非适用场景
虽然Jais-13b是强大的阿拉伯语-英语双语模型,但必须了解其局限性和潜在滥用风险。禁止以任何违反适用法律法规的方式使用该模型。以下为不应使用该模型的示例场景:
-
恶意用途:不得用于生成有害、误导或不恰当内容,包括但不限于:
- 煽动仇恨、暴力或歧视
- 传播虚假信息或假新闻
- 从事或促进非法活动
-
敏感信息:不得用于处理或生成个人隐私、机密或敏感信息
-
多语言通用性:该模型专为阿拉伯语和英语优化,不应假定其对其他语言或方言具有同等熟练度
-
高风险决策:未经人工监督不得用于医疗、法律、金融或安全关键决策
偏见、风险与局限
模型训练使用的公开数据部分由Inception策划。我们采用了多种技术减少模型偏见,但与所有大语言模型类似,该模型仍可能存在某些偏见。
该模型设计为阿拉伯语和英语使用者的AI助手,仅限于处理这两种语言的查询,对其他语言的查询可能无法生成恰当响应。
使用Jais即表示您知悉并接受:与任何大语言模型一样,它可能生成错误、误导和/或冒犯性信息。这些信息不作为建议,不应以任何方式依赖,我们不对其内容或使用后果负责。我们持续开发更具能力的模型,欢迎任何使用反馈。
© Inception Institute of Artificial Intelligence Ltd. JAIS基于Apache 2.0许可证发布。除非符合许可证要求,否则不得使用JAIS。许可证副本可通过https://www.apache.org/licenses/LICENSE-2.0获取。
除非法律另有要求,JAIS按"原样"分发,不提供任何明示或暗示的担保。具体权限限制详见许可证条款。
训练详情
训练数据
Jais-13b预训练使用了来自网络等多渠道的多样化双语语料,以及公开可用的英语和代码数据集。阿拉伯语数据收集来源包括网页、维基百科文章、新闻、阿拉伯语书籍和社交媒体内容。我们通过内部机器翻译系统将高质量英文资源(如英文维基百科和书籍)译为阿拉伯语以扩充数据量。训练数据详情参见技术报告。
训练流程
训练在Condor Galaxy 1 (CG-1)超级计算平台完成。
训练超参数
超参数 |
值 |
精度 |
fp32 |
优化器 |
AdamW |
学习率 |
0至0.012(≤95步) |
|
0.012至0.0012(>95步) |
权重衰减 |
0.1 |
批量大小 |
1920 |
训练步数 |
100551 |