license: llama2
datasets:
- HuggingFaceH4/ultrachat_200k
- HuggingFaceH4/ultrafeedback_binarized
- HuggingFaceH4/cai-conversation-harmless
language:
- sr
- en
SambaLingo-塞尔维亚语-聊天模型
SambaLingo-塞尔维亚语-聊天模型是一款支持塞尔维亚语和英语的人类对齐聊天模型。该模型基于SambaLingo-塞尔维亚语-基础模型,通过直接偏好优化训练而成。基础模型通过训练来自Cultura-X数据集中塞尔维亚语部分的170亿个token,对Llama-2-7b进行了适配。您可以在SambaLingo-聊天空间试用此模型。
模型描述
快速开始
通过Hugging Face加载模型
加载tokenizer时请确保设置use_fast=False。
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("sambanovasystems/SambaLingo-Serbian-Chat", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("sambanovasystems/SambaLingo-Serbian-Chat", device_map="auto", torch_dtype="auto")
通过Pipeline交互
加载tokenizer时请确保设置use_fast=False。
from transformers import pipeline
pipe = pipeline("text-generation", model="sambanovasystems/SambaLingo-Serbian-Chat", device_map="auto", use_fast=False)
messages = [
{"role": "user", "content": {您的问题}},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt)[0]
outputs = outputs["generated_text"]
推荐推理参数
- 温度(Temperature): 0.8
- 重复惩罚(Repetition penalty): 1.0
- Top-p: 0.9
提示模板
使用以下聊天模板进行提示:
<|user|>\n{问题}</s>\n<|assistant|>\n
示例提示与生成
<|user|>
现今贝尔格莱德地区最早的定居点可以追溯到何时,城市是何时建立的?</s>
<|assistant|>
早在史前时期就有人类在贝尔格莱德定居,最早的定居点可追溯到约7000年前的新石器时代。然而,贝尔格莱德城并非建于那个时期,而是在中世纪,9世纪时塞尔维亚人在现今卡莱梅格丹所在地建立了中世纪贝尔格莱德城。该城后来经历了多次征服、破坏与重建,最终发展成为重要的欧洲大都市。
训练详情
对齐阶段遵循Zephyr-7B的配方,包含两个阶段:监督微调(SFT)和直接性能优化(DPO)。
SFT阶段使用ultrachat_200k数据集与其谷歌翻译版本的混合数据训练。训练1个epoch,全局批次大小512,最大序列长度2048个token。采用线性衰减学习率2e-5和10%预热。
DPO阶段使用ultrafeedback数据集和cai-conversation-harmless数据集混合10%谷歌翻译数据进行训练。全局批次大小32,训练3个epoch。采用线性衰减学习率5e-7,10%预热,DPO正则化因子β=0.1。
分词器详情
通过添加多达25,000个新语言的非重叠token,将基础llama模型的词汇表从32,000个token扩展到57,000个token。
评估
评估结果请参阅我们的论文:SambaLingo: 教授大语言模型新语言
用途
直接使用
使用本模型需遵守Meta的Llama 2社区许可协议。下载模型权重前请仔细阅读并接受该许可。
非适用范围
SambaLingo不应用于:
- 关键任务应用
- 涉及他人安全的场景
- 做出高度重要决策
偏见、风险与限制
与所有大语言模型一样,SambaLingo存在以下限制:
- 幻觉:模型可能生成看似合理但事实错误或无关的信息
- 语码转换:模型可能在单次响应中无意切换语言或方言,影响输出的连贯性
- 重复:模型可能产生重复短语或句子,降低响应吸引力
- 编程与数学:模型在生成准确代码或解决复杂数学问题方面能力有限
- 毒性:模型可能无意生成不当或有害内容
致谢
我们衷心感谢开源AI社区,没有开源就不会有此成果。SambaNova拥抱开源社区并渴望积极贡献。
特别感谢以下团队:
- Meta开源LLama 2和FLORES-200数据集
- Nguyen等人开源CulturaX数据集
- CohereAI发布AYA-101并开源多语言指令调优数据集
- EleutherAI提供开源评估框架
- Hugging Face-H4团队开源zephyr训练配方和对齐手册仓库
引用SambaLingo
@misc{csaki2024sambalingo,
title={SambaLingo: 教授大语言模型新语言},
author={Zoltan Csaki and Bo Li and Jonathan Li and Qiantong Xu and Pian Pawakapan and Leon Zhang and Yun Du and Hengyu Zhao and Changran Hu and Urmish Thakker},
year={2024},
eprint={2404.05829},
archivePrefix={arXiv},
primaryClass={cs.CL}
}