许可证:llama2
数据集:
- HuggingFaceH4/ultrachat_200k
- HuggingFaceH4/ultrafeedback_binarized
- HuggingFaceH4/cai-conversation-harmless
语言:
- 土耳其语
- 英语
SambaLingo-土耳其语-聊天模型
SambaLingo-土耳其语-聊天模型是一款支持土耳其语和英语的对齐人类偏好的聊天模型。该模型基于SambaLingo-土耳其语-基础模型,通过直接偏好优化训练而成。基础模型通过训练来自Cultura-X数据集的土耳其语部分420亿个token,对Llama-2-7b进行了土耳其语适配。您可以在SambaLingo聊天空间试用此模型。
模型描述
快速开始
通过Hugging Face加载模型
加载tokenizer时请确保设置use_fast=False。
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("sambanovasystems/SambaLingo-Turkish-Chat", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("sambanovasystems/SambaLingo-Turkish-Chat", device_map="auto", torch_dtype="auto")
通过Pipeline交互
加载tokenizer时请确保设置use_fast=False。
from transformers import pipeline
pipe = pipeline("text-generation", model="sambanovasystems/SambaLingo-Turkish-Chat", device_map="auto", use_fast=False)
messages = [
{"role": "user", "content": {你的问题}},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt)[0]
outputs = outputs["generated_text"]
推荐推理参数
- 温度(Temperature): 0.8
- 重复惩罚(Repetition penalty): 1.0
- Top-p采样: 0.9
提示模板指南
使用以下聊天模板:
<|user|>\n{问题}</s>\n<|assistant|>\n
训练细节
对齐阶段遵循Zephyr-7B方案,包含两个阶段:监督微调(SFT)和直接偏好优化(DPO)。
SFT阶段使用ultrachat_200k数据集及其谷歌翻译版本的混合数据,训练1个epoch,全局批量大小512,最大序列长度2048个token。采用2e-5线性衰减学习率和10%预热。
DPO阶段使用ultrafeedback和cai-conversation-harmless数据集,混合10%的谷歌翻译数据。训练3个epoch,全局批量大小32。采用5e-7线性衰减学习率、10%预热和β=0.1的DPO正则化因子。
Tokenizer详情
通过添加多达25,000个新语言的非重叠token,将基础llama模型的词汇表从32,000扩展到57,000个token。
评估
评估结果详见论文:SambaLingo:教授大语言模型新语言
用途
直接使用
使用本模型需遵守Meta的Llama 2社区许可协议。下载模型权重前请仔细阅读并接受许可条款。
非适用场景
SambaLingo不应用于:
偏见、风险与限制
与所有LLM类似,SambaLingo存在以下限制:
- 幻觉:可能生成看似合理但事实错误或无关的内容
- 语码转换:可能在单次响应中无意切换语言或方言
- 重复:可能产生重复短语或句子
- 编程与数学:生成准确代码或解决复杂数学问题的能力有限
- 毒性:可能无意生成不当或有害内容
致谢
我们衷心感谢开源AI社区,没有开源就不会有此成果。SambaNova拥抱开源社区并期望积极回馈。
特别感谢以下团队:
- Meta开源LLama 2和FLORES-200数据集
- Nguyen等开源CulturaX数据集
- CohereAI发布AYA-101和多语言指令调优数据集
- EleutherAI提供开源评估框架
- Hugging Face-H4团队开源zephyr训练方案和对齐手册
引用SambaLingo
@misc{csaki2024sambalingo,
title={SambaLingo:教授大语言模型新语言},
author={Zoltan Csaki等},
year={2024},
eprint={2404.05829},
archivePrefix={arXiv},
primaryClass={cs.CL}
}