基础模型: inceptionai/jais-family-13b
语言支持:
- 阿拉伯语
- 英语
缩略图: 无
标签:
- 阿拉伯语
- 英语
- 大语言模型
- 解码器
- 因果语言模型
- jais系列
许可证: apache-2.0
任务类型: 文本生成
Jais系列模型卡
Jais系列模型是一组全面的英阿双语大语言模型(LLMs),专为阿拉伯语优化同时具备强大的英语能力。我们发布了两类基础模型变体:
- 从头预训练的模型(
jais-family-*
)
- 基于Llama-2自适应预训练的模型(
jais-adapted-*
)
本次发布包含8种规模的20个模型,参数量从5.9亿到700亿不等,训练数据涵盖1.6万亿阿拉伯语、英语和代码标记。所有预训练模型都经过指令微调(*-chat
),使用精心筛选的阿拉伯语和英语指令数据。
我们希望通过这次大规模发布加速阿拉伯语NLP研究,为阿拉伯语和双语社区赋能。我们验证的训练和适配技术可推广到其他中低资源语言。
模型详情
- 开发团队: Inception, Cerebras Systems
- 支持语言: 阿拉伯语(现代标准阿拉伯语)和英语
- 输入: 纯文本
- 输出: 文本生成
- 模型规模: 5.9亿/13亿/27亿/67亿/70亿/130亿/300亿/700亿参数
- 演示: 访问在线演示
- 许可证: Apache 2.0
(后续表格内容保持相同格式翻译)
模型架构
本系列所有模型均采用基于Transformer的解码器架构(GPT-3风格)。
- Jais原生模型:从头训练,使用SwiGLU激活函数和ALiBi位置编码,支持长序列外推
- Jais适配模型:基于Llama-2构建,采用RoPE位置嵌入和分组查询注意力。通过添加32,000个阿拉伯语新词元并学习嵌入空间投影实现高效适配
快速开始
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path = "inceptionai/jais-family-13b-chat"
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, device_map="auto", trust_remote_code=True)
def get_response(text):
return response
print(get_response("ما هي عاصمة الامارات؟"))
print(get_response("What is the capital of UAE?"))
训练详情
预训练数据
使用1.6万亿标记的多样化数据,包含:
- 网页数据:阿拉伯语/英语网页、维基、新闻、社交媒体
- 代码:增强模型推理能力
- 书籍:提升长文本连贯性
- 科研论文:强化推理和长上下文处理
- 合成数据:通过机器翻译扩充高质量阿拉伯语语料
数据混合比例:
- 原生模型:阿拉伯语:英语:代码=1:2:0.4
- 适配模型:根据模型规模动态调整,最高使用334B阿拉伯语标记
(具体训练参数和硬件配置翻译略)
评估结果
阿拉伯语评估
在ArabicMMLU、EXAMS等基准测试中,30B模型平均得分49.2,70B适配模型达51.5。聊天模型在指令跟随方面表现突出。
英语评估
30B原生模型MMLU得分42.2,70B适配模型在Hellaswag等任务上超过80分,保持强大英语能力。
GPT-4评估
通过Vicuna测试集的人工评估显示,新一代模型在阿拉伯语和英语生成质量上较前代有显著提升。
使用场景
适用领域
- 学术研究:阿拉伯NLP、机械可解释性研究
- 商业应用:阿拉伯语聊天助手、市场情感分析、双语文档摘要
- 开发者:集成阿拉伯语能力的应用程序开发
限制场景
- 禁止生成有害/误导性内容
- 不适用于处理敏感信息
- 仅优化阿拉伯语和英语,其他语言效果有限
- 不应用于高风险决策场景
偏差与风险
尽管已采取降偏措施,模型仍可能反映训练数据中的偏见。使用者需知悉可能产生不正确/冒犯性内容的风险。
(版权声明和引用格式翻译略)
核心价值
通过发布不同规模的预训练模型、适配方案和全系列微调模型,我们致力于:
- 为阿拉伯NLP研究者提供本土化的大模型方案
- 展示可推广到其他中低资源语言的技术路径
- 推动文化适配的本地化语言模型发展