Sailor2-L-8B-Chat-GGUF开源多语言大模型 - 免费支持15种语言覆盖东南亚

首页

Sailor2 L 8B Chat GGUF

由 QuantFactory 开发

Sailor2是一个专注于东南亚地区的多语言大模型，支持15种语言，包括英语、中文及多种东南亚语言。

大型语言模型支持多种语言开源协议:Apache-2.0 #东南亚多语言 #低资源优化 #对话式AI

下载量 303

发布时间 : 5/14/2025

模型简介

Sailor2是基于Qwen 2.5构建的多语言模型，通过500B tokens的预训练优化，支持15种东南亚语言，旨在为该地区提供开放、包容的语言技术。

模型特点

多语言支持

支持15种东南亚语言，满足多样化语言需求。

社区驱动

由社区驱动的倡议，旨在为东南亚地区提供先进的语言技术。

高效训练

通过500B tokens的预训练优化，提升模型性能。

模型能力

多语言文本生成

对话系统

指令执行

使用案例

多语言对话

多语言客服

用于支持多语言的客户服务系统。

提升客户服务效率，支持多种语言交流。

教育

语言学习助手

辅助学习东南亚语言。

提供多语言学习支持，增强学习体验。

🚀 QuantFactory/Sailor2-L-8B-Chat-GGUF

这是使用llama.cpp创建的sail/Sailor2-L-8B-Chat的量化版本，旨在为用户提供更高效、便捷的多语言处理体验。

该标志由MidJourney生成

🚀 快速开始

这里提供了一个代码片段，展示如何加载分词器和模型，以及如何生成内容。

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"

model = AutoModelForCausalLM.from_pretrained(
    'sail/Sailor2-20B-Chat',
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

tokenizer = AutoTokenizer.from_pretrained('sail/Sailor2-20B-Chat')
system_prompt= \
'You are an AI assistant named Sailor2, created by Sea AI Lab. \
As an AI assistant, you can answer questions in English, Chinese, and Southeast Asian languages \
such as Burmese, Cebuano, Ilocano, Indonesian, Javanese, Khmer, Lao, Malay, Sundanese, Tagalog, Thai, Vietnamese, and Waray. \
Your responses should be friendly, unbiased, informative, detailed, and faithful.'

prompt = "Beri saya pengenalan singkat tentang model bahasa besar."
# prompt = "Hãy cho tôi một giới thiệu ngắn gọn về mô hình ngôn ngữ lớn."
# prompt = "ให้ฉันแนะนำสั้น ๆ เกี่ยวกับโมเดลภาษาขนาดใหญ่"

messages = [
    {"role": "system", "content": system_prompt},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer([text], return_tensors="pt").to(device)
input_ids = model_inputs.input_ids.to(device)

generated_ids = model.generate(
    input_ids,
    max_new_tokens=512,
)

generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

✨ 主要特性

多语言支持：支持英语、中文、缅甸语、宿务语、伊洛卡诺语、印尼语、爪哇语、高棉语、老挝语、马来语、巽他语、他加禄语、泰语、越南语和瓦雷语等15种语言。
社区驱动：由社区驱动的项目，致力于为东南亚地区提供先进的多语言语言模型。
模型扩展：提供1B、8B和20B三种不同规模的模型，满足不同场景的需求。

📦 安装指南

Sailor2的代码已集成在最新的Hugging face transformers中，建议安装transformers==4.46.3。

📚 详细文档

模型概述

模型集合：基础模型与聊天模型
项目网站：sea-sailor.github.io/blog/sailor2/
代码库：github.com/sail-sg/sailor2
技术报告：Sailor2报告

训练详情

在开发过程中，我们采用了一系列先进技术，以确保顶级的性能和效率：

模型扩展
优化的数据混合策略
多阶段预训练协议
先进的多语言后训练

更多训练详情请参考Sailor2博客。

🔧 技术细节

Sailor2基于出色的多语言模型Qwen 2.5构建，并在500B个标记上进行持续预训练，以更好地支持15种语言。该模型有1B、8B和20B三种规模，分别从Qwen2.5的0.5B、7B和14B基础模型扩展而来。

📄 许可证

Sailor2根据Apache许可证2.0条款进行分发，对研究和商业使用均无限制。

📚 引用

如果您发现Sailor2有用，请按以下方式引用我们的工作：

@article{sailor2report,
  title  = {Sailor2: Sailing in South-East Asia with Inclusive Multilingual LLM},
  author = {Longxu Dou and Qian Liu and Fan Zhou and Changyu Chen and Zili Wang and Ziqi Jin and Zichen Liu and Tongyao Zhu and Cunxiao Du and Penghui Yang and Haonan Wang and Jiaheng Liu and Yongchi Zhao and Xiachong Feng and Xin Mao and Man Tsung Yeung and Kunat Pipatanakul and Fajri Koto and Min Si Thu and Hynek Kydl{\'\i}{\v{c}}ek and Zeyi Liu and Qunshu Lin and Sittipong Sripaisarnmongkol and Kridtaphad Sae-Khow and Nirattisai Thongchim and Taechawat Konkaew and Narong Borijindargoon and Anh Dao and Matichon Maneegard and Phakphum Artkaew and Zheng-Xin Yong and Quan Nguyen and Wannaphong Phatthiyaphaibun and Hoang H. Tran and Mike Zhang and Shiqi Chen and Tianyu Pang and Chao Du and Xinyi Wan and Wei Lu and Min Lin},
  journal={arXiv preprint arXiv:2502.12982},
  year   = {2025}
}

📞 联系我们

如果您有任何问题，请提出问题或通过doulx@sea.com或liuqian.sea@gmail.com与我们联系。

📋 其他信息

属性	详情
支持语言	英语、中文、印尼语、泰语、越南语、马来语、老挝语、缅甸语、爪哇语、高棉语、巽他语、他加禄语
标签	多语言、东南亚、水手、SFT、聊天、指令
基础模型	sail/Sailor2-L-8B
库名称	transformers
任务类型	文本生成

示例

示例标题	文本内容
中文	如何制作烤鱼？
英文	How to bake fish?
马来语	Bagaimana cara memanggang ikan?
泰语	วิธีย่างปลา?
印尼语	Bagaimana membuat bakaran ikan?
越南语	Làm thế nào để nướng cá?