license: llama2
datasets:
- uonlp/CulturaX
language:
- tr
- en
metrics:
- chrf
- accuracy
- bleu
SambaLingo-土耳其语-基础版
SambaLingo-土耳其语-基础版是一个基于Llama-2-7b预训练的双语(土耳其语和英语)模型,通过在Cultura-X数据集的土耳其语部分上训练420亿个令牌而适配土耳其语。该模型在困惑度和FLORES-200翻译任务中报告了最先进的评估结果。如需此模型的聊天版本,请参见sambanovasystems/SambaLingo-Turkish-Chat,或在SambaLingo-chat-space试用。
模型描述
快速开始
通过Hugging Face加载模型
from transformers import AutoModelForCausalLM, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("sambanovasystems/SambaLingo-Turkish-Base")
model = AutoModelForCausalLM.from_pretrained("sambanovasystems/SambaLingo-Turkish-Base", device_map="auto", torch_dtype="auto")
推荐推理参数
建议设置do_sample=False,因为这是一个预训练检查点。
提示指南
此模型是一个预训练检查点,因此为了有效使用,请使用少量示例提示。唯一需要的其他提示模板是Llama分词器的标准<s>(BOS)令牌。如果想通过直接问题或查询与模型交互,请使用经过人类偏好对齐的聊天版本模型sambanovasystems/SambaLingo-Turkish-Chat。
训练详情
所有预训练均在Cultura-X数据集上进行。按照Csaki等人的建议,我们将数据混合为75%的目标语言数据和25%的英语数据。我们将数据打包成长度为4096的序列,并确保在学习令牌时仅关注对应文本文档上下文中的先前令牌。训练参数为:全局批量大小1024,序列长度4096,最大学习率1e-4(余弦衰减),预热比例0.01,权重衰减0.1。
分词器详情
我们通过添加多达25,000个目标语言的非重叠令牌,将基础Llama模型的词汇量从32,000扩展到57,000。
评估
评估结果详见论文:SambaLingo: 教授大语言模型新语言
用途
直接使用
使用此模型需遵守Meta的Llama 2社区许可协议。下载模型权重前请仔细阅读并接受许可条款。
超出范围的用途
SambaLingo不应用于:
- 关键任务应用
- 涉及他人安全的场景
- 做出高度重要的决策
偏见、风险与限制
与所有大语言模型类似,SambaLingo存在以下限制:
- 幻觉:模型可能生成看似合理但事实错误或无关的响应。
- 语码转换:模型可能在单次响应中无意间切换语言或方言,影响输出的连贯性和可理解性。
- 重复:模型可能生成重复短语或句子,导致响应缺乏吸引力和信息量。
- 编程与数学:模型在生成准确代码或解决复杂数学问题方面表现有限。
- 毒性:模型可能无意生成包含不当或有害内容的响应。
致谢
我们衷心感谢开源AI社区;没有开源,这一努力将无法实现。SambaNova拥抱开源社区,并渴望积极贡献于此倡议。
特别感谢以下团体:
- Meta开源LLama 2和FLORES-200数据集
- Nguyen等人开源CulturaX数据集
- CohereAI发布AYA-101并开源多语言指令调优数据集
- EleutherAI提供开源评估框架
- Hugging Face-H4团队开源zephyr训练方案和对齐手册仓库
引用SambaLingo
@misc{csaki2024sambalingo,
title={SambaLingo: Teaching Large Language Models New Languages},
author={Zoltan Csaki and Bo Li and Jonathan Li and Qiantong Xu and Pian Pawakapan and Leon Zhang and Yun Du and Hengyu Zhao and Changran Hu and Urmish Thakker},
year={2024},
eprint={2404.05829},
archivePrefix={arXiv},
primaryClass={cs.CL}
}