license: llama2
datasets:
- HuggingFaceH4/ultrachat_200k
- HuggingFaceH4/ultrafeedback_binarized
- HuggingFaceH4/cai-conversation-harmless
language:
- ru
- en
SambaLingo-俄语对话模型
SambaLingo-俄语对话模型是基于俄语和英语训练的人类对齐对话模型。该模型在基础模型SambaLingo-俄语基础版之上,采用直接偏好优化方法训练而成。基础模型通过训练Cultura-X数据集中俄语部分的630亿个token,对Llama-2-7b进行了俄语适配。欢迎在SambaLingo对话演示空间试用本模型。
模型描述
快速开始
通过Hugging Face加载模型
加载tokenizer时请确保设置use_fast=False
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("sambanovasystems/SambaLingo-Russian-Chat", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("sambanovasystems/SambaLingo-Russian-Chat", device_map="auto", torch_dtype="auto")
使用模型管道交互
加载tokenizer时请确保设置use_fast=False
from transformers import pipeline
pipe = pipeline("text-generation", model="sambanovasystems/SambaLingo-Russian-Chat", device_map="auto", use_fast=False)
messages = [
{"role": "user", "content": "您的问题"},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt)[0]
outputs = outputs["generated_text"]
推荐推理参数
- 温度(Temperature): 0.8
- 重复惩罚(Repetition penalty): 1.0
- 核心采样(Top-p): 0.9
提示模板规范
请使用以下对话模板:
<|user|>\n{问题}</s>\n<|assistant|>\n
示例提示与生成
<|user|>
请续写段落:罗季昂·拉斯柯尔尼科夫是陀思妥耶夫斯基小说《罪与罚》的主人公。他的性格非常复杂,在整个故事中不断演变。他拥有卓越的智力和野心,但
</s>
<|assistant|>
内心的挣扎和道德疑虑阻碍了他按照自己的欲望行动。拉斯柯尔尼科夫是个贫困大学生,正经历经济困难并感到无力改变生活。他提出一种理论,认为某些人有权为实现伟大目标而犯罪,并决定通过杀害放高利贷的老太婆来验证理论。然而这一行为导致他深陷罪恶感和精神崩溃,迫使他寻求救赎。整部小说中,拉斯柯尔尼科夫经历了自我认知和人格成长的历程,最终认识到同情心、怜悯和对他人责任的重要性,通过忏悔和宽恕获得了救赎。
训练详情
对齐训练遵循Zephyr-7B方案,包含监督微调(SFT)和直接偏好优化(DPO)两个阶段。
SFT阶段使用ultrachat_200k数据集及其俄语翻译版本混合训练,全局批次大小512,最大序列长度2048 token,采用2e-5线性衰减学习率和10%预热步数,训练1个epoch。
DPO阶段使用ultrafeedback和cai-conversation-harmless数据集混合10%翻译数据,全局批次大小32,训练3个epoch,采用5e-7线性衰减学习率、10%预热步数及β=0.1的DPO正则化系数。
分词器详情
通过新增25,000个非重叠语言token,将基础Llama模型的词汇量从32,000扩展至57,000。
评估
评估结果详见论文:SambaLingo:教授大模型新语言
使用场景
直接使用
本模型使用受MetaLlama 2社区许可协议约束,下载权重前请仔细阅读并接受许可条款。
非适用场景
SambaLingo不适用于:
局限性
与所有大语言模型类似,SambaLingo存在以下局限:
- 幻觉:可能生成看似合理但事实错误的内容
- 语码转换:回答中可能出现非预期的语言切换
- 重复性:可能产生重复短语降低信息量
- 编程与数学:处理复杂代码和数学问题能力有限
- 毒性:可能无意生成不当内容
致谢
衷心感谢开源AI社区的支持,特别致谢:
- Meta开源LLama 2和FLORES-200数据集
- Nguyen等团队开源CulturaX数据集
- CohereAI发布AYA-101及多语言指令数据集
- EleutherAI开源评估框架
- Hugging Face-H4团队开源zephyr训练方案
引用SambaLingo
@misc{csaki2024sambalingo,
title={SambaLingo:教授大模型新语言},
author={Zoltan Csaki等},
year={2024},
eprint={2404.05829},
archivePrefix={arXiv},
primaryClass={cs.CL}
}