base_model: inceptionai/Llama-3.1-Sherkala-8B-Chat
language:
- 哈萨克语
- 英语
thumbnail: null
tags:
- 哈萨克语
- 英语
- 大语言模型
- 解码器
- 因果语言模型
- 指令调优
license: cc-by-nc-sa-4.0
pipeline_tag: 文本生成
Llama-3.1-Sherkala-8B-Chat
Llama-3.1-Sherkala-8B-Chat(简称Sherkala)是一款拥有80亿参数的先进指令调优大语言模型(LLM),主要面向哈萨克语设计,同时在英语、俄语和土耳其语中保持优异性能。该模型由G42集团旗下Inception与MBZUAI联合Cerebras Systems共同开发,通过平衡的多语言数据混合方案和定制分词器,有效解决了哈萨克语数据稀缺的挑战。模型在下游任务优化、安全文本生成和文化适配方面表现突出。
模型详情
- 开发机构: G42旗下Inception、MBZUAI、Cerebras Systems
- 支持语言: 哈萨克语(主要)、英语、俄语、土耳其语
- 输入类型: 文本
- 输出类型: 生成文本
- 参数量: 80亿
- 上下文长度: 8,192个token
- 技术报告: Sherkala技术报告
- 许可协议: cc-by-nc-sa-4.0
快速使用指南
以下是使用该模型的示例代码(测试环境transformers==4.46.2):
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_path="inceptionai/Llama-3.1-Sherkala-8B-Chat"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, device_map="auto")
device = "cuda" if torch.cuda.is_available() else "cpu"
tokenizer.chat_template="{% set loop_messages = messages %}{% for message in loop_messages %}{% set content = '<|start_header_id|>' + message['role']+'<|end_header_id|>\n\n'+ message['content'] | trim + '<|eot_id|>' %}{% if loop.index0 == 0 %}{% set content = bos_token + content %} {% endif %}{{ content }}{% endfor %}{% if add_generation_prompt %}{{ '<|start_header_id|>assistant<|end_header_id|>\n\n' }}{% endif %}"
def get_response(text):
conversation = [
{"role": "user", "content": text}
]
input_ids = tokenizer.apply_chat_template(
conversation=conversation,
tokenize=True,
add_generation_prompt=True,
return_tensors="pt").to(device)
gen_tokens = model.generate(
input_ids,
max_new_tokens=500,
stop_strings=["<|eot_id|>"],
tokenizer=tokenizer
)
gen_text = tokenizer.decode(gen_tokens[0][len(input_ids[0]): -1])
return gen_text
question = '您能推荐一些哈萨克斯坦的特色美食吗?'
print(get_response(question))
示例输出:
- 别什巴尔马克:哈萨克斯坦最著名的传统美食,通常用羊肉/牛肉/马肉连骨炖煮,配以手擀面片,常与肉汤同食
- 卡兹奶酪:发酵马奶制成的传统乳制品,口感柔软微酸,可直接食用或搭配面包
- 包尔萨克:圆形油炸面点,常作为主食搭配肉类菜肴
- 哈萨克炸鸡:用香料酸奶腌制的特色炸鸡,外酥里嫩
- 烤肉串:类似烤肉的串烧料理,多用羊肉/牛肉在明火烤制
- 红菜汤:甜菜根炖煮的暖身汤品,冬季常见
- 焖肉锅:土豆洋葱炖肉的传统做法
- 抓饭:羊肉胡萝卜焖饭的经典组合
- 面条汤:肉汤煮制的手工面条
- 蜂蜜马奶:营养丰富的传统饮品
模型架构
基于Llama-3.1-8B架构改进的因果解码器Transformer模型,采用RoPE位置编码和分组查询注意力机制。为更好处理哈萨克语复杂形态特征,专门扩充25%的高频词汇表,显著降低token化片段率(单词平均子词数),提升训练和推理效率。
训练数据
预训练阶段处理453亿token的多语言语料,涵盖哈萨克语与英语核心语料,辅以俄语和土耳其语实现跨语言能力迁移。数据经过标准化清洗、语言特定过滤及局部敏感哈希去重处理。
指令微调阶段使用:
- 590万哈萨克语问答对
- 270万英语问答对
- 26.3万俄语问答对
包含通用任务与安全对话数据集,详细内容参见技术报告。
训练参数
超参数配置
- 学习率:1.5e-4
- 批大小:400万token
- 优化器:AdamW (β1=0.9, β2=0.95, ε=1e-5)
- 权重衰减:0.1
- 梯度裁剪:1.0
- 学习率调度:
训练设施
- Cerebras Condor Galaxy 2超算平台
- 16台CS-2系统并行训练
- 纯数据并行策略
评估结果
下游任务表现(零样本)
哈萨克语基准测试
模型 |
平均分 |
KazMMLU |
MMLU |
贝莱贝莱 |
HS测试 |
PIQA |
BoolQA |
SIQA |
ARC |
OBQA |
数学 |
COPA |
真值QA |
偏见对 |
Sherkala |
45.7 |
51.6 |
37.7 |
25.9 |
53.1 |
68.1 |
66.9 |
42.2 |
38.1 |
37.0 |
18.0 |
51.0 |
50.3 |
54.3 |
Sherkala-chat |
47.6 |
41.4 |
34.6 |
30.6 |
55.2 |
65.9 |
75.8 |
48.1 |
42.9 |
37.4 |
28.0 |
53.2 |
52.5 |
53.3 |
英语基准测试
模型 |
平均分 |
MMLU |
RACE |
HS测试 |
PIQA |
BoolQA |
SIQA |
ARC |
OBQA |
真值QA |
偏见对 |
Sherkala |
58.7 |
46.8 |
39.2 |
78.3 |
80.5 |
77.2 |
51.3 |
52.1 |
46.0 |
49.6 |
65.9 |
生成质量评估(GPT-4评分)
模型 |
哈萨克MT |
哈萨克Vicuna |
俄语MT |
俄语Vicuna |
英语MT |
英语Vicuna |
Sherkala-chat |
5.99±2.73 |
7.39±1.89 |
1.02±1.41 |
0.97±1.70 |
5.78±2.43 |
6.55±1.59 |
使用范围
适用场景
- 学术研究:哈萨克语自然语言处理
- 商业应用:面向哈萨克族用户的智能服务
- 开发集成:哈萨克语功能应用程序
禁止用途
- 商业盈利行为
- 生成有害/误导内容
- 处理敏感信息
- 高风险决策
风险声明
尽管已采取严格安全措施,模型仍可能产生不准确或有偏见的输出。使用者需自行承担风险,建议关键场景部署前进行充分测试。模型按"原样"提供,不承担任何责任。
版权声明: Inception人工智能研究院版权所有,遵循CC-BY-NC-SA-4.0许可协议。
@misc{koto2025sherkala,
title={Llama-3.1-Sherkala-8B-Chat: 哈萨克语开源大语言模型},
author={Fajri Koto等},
year={2025},
eprint={2503.01493},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
注: 模型文件已更新至2025年2月20日最新版本