SambaLingo-土耳其语-基础版开源双语模型

首页

Sambalingo Turkish Base

由 sambanovasystems 开发

SambaLingo-土耳其语-基础版是一个基于Llama-2-7b预训练的双语（土耳其语和英语）模型，通过在Cultura-X数据集的土耳其语部分上训练420亿个令牌而适配土耳其语。

大型语言模型

Transformers

支持多种语言#土耳其语优化 #双语模型 #文化语料训练

下载量 29

发布时间 : 2/15/2024

模型简介

该模型是一个预训练的语言模型，支持土耳其语和英语，主要用于文本生成和理解任务。

模型特点

双语支持

支持土耳其语和英语，适用于双语任务。

大规模预训练

在Cultura-X数据集的土耳其语部分上训练了420亿个令牌，优化了土耳其语性能。

扩展词汇

通过添加多达25,000个目标语言的非重叠令牌，扩展了基础Llama模型的词汇量。

模型能力

文本生成

语言理解

双语翻译

使用案例

自然语言处理

土耳其语文本生成

生成土耳其语文本，适用于内容创作、自动回复等场景。

双语翻译

在土耳其语和英语之间进行翻译任务。

🚀 SambaLingo土耳其语基础模型

SambaLingo土耳其语基础模型是一个预训练的双语（土耳其语和英语）模型。它基于Llama - 2 - 7b，通过在Cultura - X数据集的土耳其语部分的420亿个标记上进行训练，将其适配到土耳其语。该模型在困惑度和FLORES - 200翻译方面取得了最先进的评估结果。若需该模型的聊天版本，请查看sambanovasystems/SambaLingo - Turkish - Chat，或在SambaLingo聊天空间中试用。

🚀 快速开始

使用Hugging Face加载模型

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("sambanovasystems/SambaLingo-Turkish-Base")
model = AutoModelForCausalLM.from_pretrained("sambanovasystems/SambaLingo-Turkish-Base", device_map="auto", torch_dtype="auto")

建议的推理参数

由于这是一个预训练的检查点，建议将do_sample设置为False。

提示准则

此模型是一个预训练的检查点，为了有效使用它，请使用带有示例的少样本提示。唯一需要的其他提示模板是Llama分词器的标准<s>（BOS）标记。如果您想直接用问题或查询与该模型交互，请使用已与人的偏好对齐的聊天版本模型sambanovasystems/SambaLingo - Turkish - Chat。

✨ 主要特性

基于Llama 2进行预训练，适配土耳其语，支持双语（土耳其语和英语）。
在困惑度和FLORES - 200翻译方面取得了最先进的评估结果。

📦 安装指南

使用Hugging Face加载模型的代码如下：

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("sambanovasystems/SambaLingo-Turkish-Base")
model = AutoModelForCausalLM.from_pretrained("sambanovasystems/SambaLingo-Turkish-Base", device_map="auto", torch_dtype="auto")

📚 详细文档

模型描述

开发者：SambaNova Systems
模型类型：语言模型
语言：土耳其语、英语
微调基础模型：Llama 2
试用模型的聊天版本：SambaLingo聊天空间
论文：SambaLingo: Teaching Large Language Models New Languages
博客文章：sambalingo - open - source - language - experts

训练详情

所有预训练均在Cultura - X数据集上进行。按照Csaki等人的建议，将数据混合为75%待适配语言的数据和25%的英语数据。将数据打包成长度为4096的序列，并确保在学习一个标记时，只关注相应文本文档上下文中的先前标记。训练时使用的全局批量大小为1024，序列长度为4096，最大学习率为1e - 4（采用余弦衰减），热身比例为0.01，权重衰减为0.1。

分词器详情

通过从新语言中添加多达25000个不重叠的标记，将基础Llama模型的词汇量从32000个标记扩展到57000个标记。

评估

评估结果请参阅我们的论文：SambaLingo: Teaching Large Language Models New Languages

使用方式

直接使用

该模型的使用受Meta的Llama 2社区许可协议约束。请在下载模型权重之前查看并接受该许可。

超出范围的使用

SambaLingo不应用于以下场景：

关键任务应用程序
涉及他人安全的应用程序
做出非常重要的决策

偏差、风险和局限性

与所有大语言模型一样，SambaLingo存在一定的局限性：

幻觉：模型有时可能会生成听起来合理但事实上不正确或不相关的信息。
代码切换：模型可能会在单个响应中无意地在语言或方言之间切换，影响输出的连贯性和可理解性。
重复：模型可能会产生重复的短语或句子，导致响应的吸引力和信息量降低。
编码和数学：模型在生成准确代码或解决复杂数学问题方面的性能可能有限。
毒性：模型可能会无意中生成包含不适当或有害内容的响应。

🔧 技术细节

训练数据

所有预训练均在Cultura - X数据集上进行。按照Csaki等人的建议，将数据混合为75%待适配语言的数据和25%的英语数据。

训练参数

训练时使用的全局批量大小为1024，序列长度为4096，最大学习率为1e - 4（采用余弦衰减），热身比例为0.01，权重衰减为0.1。

分词器

通过从新语言中添加多达25000个不重叠的标记，将基础Llama模型的词汇量从32000个标记扩展到57000个标记。

📄 许可证

该模型的使用受Meta的Llama 2社区许可协议约束。

致谢

我们衷心感谢开源AI社区；如果没有开源，这项工作是不可能完成的。SambaNova支持开源社区，并希望积极为这一倡议做出贡献。

我们特别感谢以下团体：

Meta开源了LLama 2和FLORES - 200数据集
Nguyen等人开源了CulturaX数据集
CohereAI发布了AYA - 101并开源了一个多语言指令调优数据集
EleutherAI提供了开源评估框架
Hugging Face - H4团队开源了Zephyr训练配方和对齐手册仓库

引用SambaLingo

@misc{csaki2024sambalingo,
      title={SambaLingo: Teaching Large Language Models New Languages}, 
      author={Zoltan Csaki and Bo Li and Jonathan Li and Qiantong Xu and Pian Pawakapan and Leon Zhang and Yun Du and Hengyu Zhao and Changran Hu and Urmish Thakker},
      year={2024},
      eprint={2404.05829},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}