许可证:gemma
语言:
- 斯洛文尼亚语
- 英语
- 克罗地亚语
- 塞尔维亚语
- 波斯尼亚语
基础模型:
- cjvt/GaMS-9B
任务标签:文本生成
GaMS-9B-Instruct模型卡
GaMS-2B、GaMS-9B和GaMS-27B是GaMS(斯洛文尼亚生成模型)系列的新改进版本,模型规模更大。这些模型基于谷歌的Gemma 2系列,并持续在斯洛文尼亚语、英语以及部分克罗地亚语、塞尔维亚语和波斯尼亚语语料库上进行预训练。
此为GaMS-9B模型的监督微调(SFT)版本。

致谢
该模型由PoVeJMo研究计划(基于大语言模型的自适应自然语言处理)开发,特别是“SloLLaMai——面向斯洛文尼亚语的高效开源模型”研究项目。该计划由斯洛文尼亚研究与创新署(ARIS)和NextGenerationEU通过复苏与韧性计划资助。作者亦感谢斯洛文尼亚研究与创新署的核心研究经费支持(编号P6-0411——斯洛文尼亚语语言资源与技术)。
我们感谢所有参与数据收集与整理的工作人员,特别致谢Nikola Ljubešić、Taja Kuzman、Tjaša Arčon、Jaka Čibej、Simon Krek、Tomaž Erjavec、Iztok Kosem和Tomaž Savodnik。
基础信息
- 开发团队:卢布尔雅那大学计算机与信息科学学院研究团队,成员包括Domen Vreš、Iztok Lebar Bajec、Tjaša Arčon、Gašper Jelovčan和Marko Robnik-Šikonja。
- 支持语言:斯洛文尼亚语、英语(主要),克罗地亚语、波斯尼亚语和塞尔维亚语(次要)。尽管未持续预训练,模型可能兼容Gemma 2支持的其他语言。
- 基础模型:cjvt/GaMS-9B
- 许可证:Gemma使用条款
使用方法
可通过pipeline
API运行模型,代码如下:
from transformers import pipeline
model_id = "cjvt/GaMS-9B-Instruct"
pline = pipeline(
"text-generation",
model=model_id,
device_map="cuda"
)
message = [{"role": "user", "content": "Kateri je najpomembnejši dogodek v slovenski zgodovini?"}]
response = pline(message, max_new_tokens=512)
print("模型回复:", response[0]["generated_text"][-1]["content"])
new_message = response[0]["generated_text"]
new_message.append({"role": "user", "content": "Lahko bolj podrobno opišeš ta dogodek?"})
response = pline(new_message, max_new_tokens=1024)
print("模型回复:", response[0]["generated_text"][-1]["content"])
多GPU推理需设置device_map="auto"
:
pline = pipeline(
"text-generation",
model=model_id,
device_map="auto"
)
数据
持续预训练(CPT)数据
模型分两阶段持续预训练:
-
平行语料对齐:使用英-斯(部分含克罗地亚语)平行语料对齐语言。
- 语料类型:文档级对齐(如KAS摘要)、独立文档(如DGT)、段落级对齐(如CC-News)
- 总token数:19.1亿
-
单语语料训练:
- 主要语料:斯洛文尼亚语MetaFida(34.18%)、英语Wikipedia(39.99%)
- 次要语料:斯/克/波/塞语Wikipedia(合计5.5%)
- 总token数:136.2亿
监督微调(SFT)数据
约25,000训练样本和1,500验证样本,混合以下数据集:
- GaMS-Instruct系列指令数据集
- 过滤后的RSDO4平行语料(保留COMET评分>0.945的8,000条)
- Aya数据集的英语和塞尔维亚语样本(塞语转拉丁字母)
- 斯洛文尼亚数学竞赛题目(2001-2010年,经OCR校正)
训练
硬件与框架
- CPT阶段:使用Leonardo HPC的Booster分区,32节点(每节点4×A100 64GB),NVIDIA NeMo框架,BF16混合精度,4 GPU张量并行。
- SFT阶段:单节点4×A100 64GB,Transformers库+DeepSpeed ZeRO-3,BF16精度,流水线并行。
超参数
- CPT:
- 对齐阶段:最大学习率2e-5,batch size 512(400万token)
- 单语阶段:最大学习率5e-5,batch size 512
- SFT:
- 最大学习率5e-6,batch size 128,2轮早停
评估
斯洛文尼亚-LLM-Eval结果

GaMS模型在零样本场景下优于基础Gemma 2及基于Mistral 7B的SlovenianGPT。
SloBench结果
- 斯洛文尼亚SuperGLUE:GaMS-27B综合得分0.7601居首,GaMS-9B-Instruct排名第五(0.6997)
- 英→斯翻译:GaMS-9B-Instruct BERT分数0.8713,位列第七
- 斯→英翻译:GaMS-9B-Instruct BERT分数0.9454,排名第四
使用限制(基于Gemma 2条款)
预期用途
- 内容创作、聊天机器人、文本摘要
- NLP研究、语言学习工具、知识探索
局限性
- 训练数据偏差可能影响输出
- 对复杂任务或隐含语义的理解有限
- 可能生成事实性错误内容
伦理风险与缓解
- 偏见延续:建议持续监控并采用去偏技术
- 有害内容:开发者需实施内容安全机制
- 隐私保护:训练数据已过滤PII,建议遵守隐私法规
完整限制参见Gemma禁止使用政策。