license: cc-by-nc-4.0
language:
- 波兰语
pipeline_tag: 文本生成
library_name: transformers
PLLuM:波兰大语言模型家族
概述
PLLuM是专精于波兰语及其他斯拉夫/波罗的海语言的大语言模型(LLM)系列,通过融入英语数据实现更广泛的泛化能力。在与多方数据提供者的深度合作下,PLLuM模型基于高质量文本语料库构建,并通过指令微调、偏好学习和先进对齐技术不断优化。这些模型旨在生成上下文连贯的文本,辅助完成各类任务(如问答、摘要),并作为专业应用(如领域智能助手)的基础设施。
核心亮点
-
海量数据收集
我们整合了大规模高质量的波兰语文本(清洗去重后约1500亿token)及斯拉夫、波罗的海和英语的补充语料。其中280亿token可用于完全开源的商业用途(需遵守相关法规)。
-
原生指令数据集
我们构建了波兰最大规模的人工编写"原生指令"集(约4万条提示-响应对,含3500组多轮对话)。这套基于人机交互类型学的指令集覆盖了监督微调(SFT)中可能被自动化方法(包括大模型蒸馏)忽略的细微维度,同时有效缓解预训练阶段非波兰语数据的负面语言迁移。
-
波兰偏好语料库
我们创建了首个波兰语偏好数据集,由人口结构多元化的标注团队对模型多响应进行人工评估。该数据集不仅指导模型保持正确性(事实与语言),还确保对争议性或对抗性话题的平衡与安全。
-
评估基准
我们开发了定制化评测体系,在波兰公共行政相关任务中,PLLuM在所有测试模型中名列前茅。在更广泛的波兰语任务中,PLLuM同样达到业界最优水平。
模型说明
下表概述主要PLLuM模型的参数规模、许可证及基础架构。所有模型名称均链接至Hugging Face资源,基础模型和许可证则指向相应来源。标注*-nc-*的模型仅限非商业用途。
完全开源许可的模型因版权考量在约300亿波兰语token上持续预训练。采用CC-BY-NC-4.0许可的模型使用了约1500亿波兰语token。带-nc和-chat后缀的模型经过人类偏好对齐,在对话和通用场景中更安全高效。
模型开发流程
- 预训练:所有模型均在波兰语主体语料(最高1500亿token)及斯拉夫/波罗的海/英语补充文本上进行预训练或持续预训练
- 指令微调:基于人工标注的波兰"原生指令"(约4万条)、优质波兰语料转换指令(约5万条)及大模型生成的合成指令(约1万条)进行优化
- 对齐与偏好学习:通过人工标注的偏好数据,使模型在对抗性或敏感场景下仍能生成安全、平衡且情境适宜的响应
- 领域适配:针对公共行政等场景开发了基于检索增强生成(RAG)的专用模型,在复杂信息检索和问答任务中表现优异
应用场景
- 通用语言任务:文本生成、摘要、问答等
- 领域智能助手:特别适用于需要领域知识检索的波兰公共行政、法律及文书场景
- 研发支持:作为波兰语AI应用的基石,服务于学术与工业界的下游开发
使用指南
所有PLLuM模型均可通过Hugging Face Transformers库(或兼容框架)加载。RAG场景需搭配向量数据库或文档检索系统使用。
1. 环境安装
确保安装最新版transformers
和torch
:
pip install transformers accelerate torch
2. 模型加载
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "CYFRAGOVPL/PLLuM-12B-chat"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
3. 使用bfloat16精度
若硬件(如新款GPU)支持bfloat16,可降低内存占用并加速推理:
import torch
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype=torch.bfloat16,
device_map="auto"
)
4. 文本生成示例
prompt = "Napisz krótki wiersz o wiośnie."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
outputs = model.generate(
**inputs,
max_new_tokens=50,
do_sample=True,
top_k=50,
top_p=0.9,
temperature=0.7
)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
5. 预期输出示例
示例春日短诗:
春天啊春天,终于等到你!
四月天孩儿面,
时而寒冬时而暖。
我日日翻看日历,
盼那五月快来临。
待到百花齐放时,
枝头鸟儿唱不停。
春天啊春天,我殷切期盼,
请你快快来到我身边!
实际结果可能因参数(如temperature/top_k/top_p)、硬件等因素有所差异。
6. 检索增强生成(RAG)
Llama-PLLuM系列(chat/instruct版本)专为RAG场景优化。提示模板采用.jinja格式,其中docs为文档文本列表,question为待解答问题。若文档无相关信息,模型将返回"未找到问题答案"。
提示模板:
文档列表如下:
---------------------
<results>{% for doc in docs %}
文档{{ loop.index0 }}:
{{ doc }}
{% endfor %}</results>
---------------------
请仅依据文档内容(而非先验知识)回答问题。
用波兰语生成语法正确的高质量回答,需标注引用来源。使用[文档编号]格式引用,如[0]。若文档无相关信息,请返回:"未找到问题答案"。
问题:{{ question }}
训练细节
- 数据集:约1500亿波兰语及多语言token,其中280亿token可用于完全开源的商业用途
- 超参数:根据模型规模调整,通常采用Adam/AdamW优化器、动态批次大小及精细调校的学习率
- 硬件与时长:使用Bem2超算(最高300×H100 GPU)训练,80亿-700亿参数模型的训练周期约8-25天
评估表现
- 公共行政:在政府服务相关专项任务中表现最佳
- 波兰语任务:在内部基准和标准语料库中,准确性、连贯性和安全性指标全面领先
- 定制测试:独特的偏好语料库和对齐测试确保响应具备鲁棒性、安全性和情境准确性
局限性
- 潜在幻觉:与其他LLM类似,可能偶发事实性错误或虚构内容
- 敏感性与偏见:虽经广泛偏好学习,在争议性或主观话题中仍可能出现偏差
- 上下文长度:超长上下文任务可能受限于内存约束
伦理声明
PLLuM模型设计遵循负责任使用原则。在生产部署中(尤其是敏感或受监管领域)应保持谨慎。尽管已尽力减少有害输出,仍不排除生成冒犯性、偏见或不恰当文本的风险,建议配合人工审核。
引用
若在研究或部署中使用PLLuM模型,请引用:
@unpublished{pllum2025,
title={PLLuM:波兰大语言模型家族},
author={PLLuM Consortium},
year={2025}
}
许可证
PLLuM系列模型采用多种许可(Apache 2.0/CC-BY-NC-4.0/Llama 3.1),具体参见前表各模型条目。
创建者与联盟
PLLuM项目是波兰顶尖科研机构与多领域专家的独特协作成果,通过融合多元专长推动波兰AI发展。
弗罗茨瓦夫理工大学 – 项目主导
|
NASK研究所
|
波兰科学院信息学基础研究所
|
信息处理中心
|
罗兹大学
|
波兰科学院斯拉夫学研究所
|
联系与支持
如有疑问或合作意向,请联系:pllum@e-science.pl
我们期待您的反馈与共同探索!
致谢
本项目由波兰数字化事务部长通过定向资助No.1/WI/DBiI/2023资助:
"开发开源大语言模型PLLuM(波兰大语言模型)以支持公共经济领域的突破性技术,包括面向公众的波兰语智能助手"
资助金额: 14,504,392.00兹罗提
合同签署日: 2024年1月22日