license: llama2
datasets:
- HuggingFaceH4/ultrachat_200k
- HuggingFaceH4/ultrafeedback_binarized
- HuggingFaceH4/cai-conversation-harmless
language:
- ar
- en
SambaLingo-阿拉伯语-聊天-70B
SambaLingo-阿拉伯语-聊天-70B 是一款支持阿拉伯语和英语的人类对齐对话模型。该模型基于 SambaLingo-阿拉伯语-基础-70B 通过直接偏好优化训练而成。基础模型通过使用 Cultura-X 数据集中阿拉伯语部分的 280 亿词元对 Llama-2-70b 进行适配训练。您可以在 SambaLingo-聊天空间 试用此模型。
模型描述
快速开始
通过Hugging Face加载模型
请确保在加载分词器时设置 use_fast=False。
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("sambanovasystems/SambaLingo-Arabic-Chat-70B", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("sambanovasystems/SambaLingo-Arabic-Chat-70B", device_map="auto", torch_dtype="auto")
使用模型管道交互
请确保在加载分词器时设置 use_fast=False。
from transformers import pipeline
pipe = pipeline("text-generation", model="sambanovasystems/SambaLingo-Arabic-Chat-70B", device_map="auto", use_fast=False)
messages = [
{"role": "user", "content": {您的问题}},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt)[0]
outputs = outputs["generated_text"]
推荐推理参数
- 温度: 0.8
- 重复惩罚: 1.0
- Top-p: 0.9
提示模板指南
使用以下对话模板提示模型:
<|user|>\n{问题}</s>\n<|assistant|>\n
示例提示与生成
<|user|>
如何向天生盲人描述颜色</s>
<|assistant|>
虽然我无法看见,但可以根据学习到的数据描述颜色。\n\n对于天生盲人,由于从未体验过颜色,描述起来可能很困难。不过我们可以通过比喻和类比来帮助理解。例如:\n- 红色:温暖而充满活力,像火焰或成熟的草莓\n- 蓝色:宁静平和,如天空或海洋\n- 绿色:清新自然,似树叶或青草\n- 黄色:明亮欢快,好比阳光或向日葵\n- 紫色:高贵奢华,犹如宝石或晚霞\n\n虽然难以完全传达颜色的本质,但通过这些比喻可以帮助盲人更好地理解颜色的微妙差异。
训练细节
对齐阶段采用 Zephyr-7B 的配方,包含两个阶段:监督微调(SFT)和直接偏好优化(DPO)。
SFT阶段使用 ultrachat_200k 数据集与其谷歌翻译版本的混合数据,训练1个epoch,全局批次大小512,最大序列长度2048词元。采用2e-5线性衰减学习率和10%预热。
DPO阶段使用 ultrafeedback 和 cai-conversation-harmless 数据集(含10%谷歌翻译数据),全局批次大小32,训练3个epoch。采用5e-7学习率,10%预热,DPO正则化因子β=0.1。
分词器细节
通过添加多达25,000个非重叠的新语言词元,将基础Llama模型的词汇量从32,000扩展到57,000。
评估
评估结果详见论文:SambaLingo:教授大语言模型新语言
使用场景
直接使用
使用本模型需遵守Meta的Llama 2社区许可协议。下载模型权重前请仔细阅读并接受许可条款。
非适用场景
SambaLingo不适用于:
偏见、风险与局限
与所有LLM类似,SambaLingo存在以下局限:
- 幻觉:可能生成看似合理但事实错误的内容
- 语码转换:回答中可能出现非故意的语言/方言混合
- 重复:可能产生重复短语降低回答质量
- 编程与数学:处理复杂代码或数学问题能力有限
- 毒性:可能无意生成不当内容
致谢
衷心感谢开源AI社区,特别致谢:
- Meta开源LLama 2和FLORES-200数据集
- Nguyen等开源CulturaX数据集
- CohereAI发布AYA-101和多语言指令数据集
- EleutherAI开源评估框架
- Hugging Face-H4团队开源zephyr训练方案
引用SambaLingo
@misc{csaki2024sambalingo,
title={SambaLingo:教授大语言模型新语言},
author={Zoltan Csaki等},
year={2024},
eprint={2404.05829},
archivePrefix={arXiv},
primaryClass={cs.CL}
}