PLLuM-8x7B-chat开源大模型 - 支持波兰等多语言，英语泛化能力强

首页

Pllum 8x7B Chat

由 CYFRAGOVPL 开发

PLLuM 是专门针对波兰语及其他斯拉夫/波罗的海语言优化的大型语言模型家族，兼具英语泛化能力，通过高质量数据训练和先进对齐技术开发而成。

大型语言模型

Transformers

其他开源协议:Apache-2.0 #波兰语优化 #斯拉夫语支持 #公共管理专用

下载量 925

发布时间 : 2/7/2025

模型简介

该系列模型专注于波兰语及周边语言处理，支持文本生成、问答、摘要等任务，特别适用于公共管理、法律等专业领域。

模型特点

大规模波兰语数据训练

使用1500亿词元的清洗去重波兰语语料库，其中280亿词元可完全开源商用

人工标注指令集

包含4万条人工编写的波兰语指令对，覆盖复杂人机交互场景

首个波兰语偏好语料库

通过人口统计学平衡的标注团队评估模型响应，优化安全性与平衡性

领域专业适配

针对公共管理等专业领域开发RAG增强版本，在官僚/法律任务中表现优异

模型能力

波兰语文本生成

多语言混合处理

复杂指令理解

敏感内容过滤

专业领域问答

文档摘要

检索增强生成

使用案例

政府服务

公共管理文档处理

自动生成政府公文、政策解读等官方文本

在波兰公共管理评估基准中取得最高分

教育研究

斯拉夫语言研究

支持波兰语及周边语言的对比分析与生成

商业应用

多语言客服系统

处理波兰语为主的客户咨询与服务

🚀 PLLuM：波兰大型语言模型家族

PLLuM 是一系列专门针对波兰语以及其他斯拉夫/波罗的海语言的大型语言模型（LLM），同时融入了英语数据以实现更广泛的泛化能力。该模型通过与众多数据提供商的广泛合作开发而成，基于高质量的文本语料库，并通过指令微调、偏好学习和先进的对齐技术进行优化。这些模型旨在生成上下文连贯的文本，为各种任务（如问答、摘要）提供帮助，并为特定领域的智能助手等专业应用奠定基础。

✨ 主要特性

广泛的数据收集
我们收集了大规模、高质量的波兰语文本数据（清理和去重后约 1500 亿个词元），以及斯拉夫语、波罗的海语和英语的额外文本。其中一部分词元（280 亿）可用于完全开源的模型，包括商业用途（需遵守相关法律法规）。
有机指令数据集
我们精心策划了最大规模的波兰语手动创建的“有机指令”集合（约 40000 个提示 - 响应配对，包括约 3500 个多轮对话）。这个由人工编写的指令集基于广泛的人机交互类型学，涵盖了监督微调（SFT）中一些可能被自动化方法忽略的微妙方面（包括对“强大大语言模型”的大规模蒸馏）。它还旨在减轻预训练阶段使用的非波兰语文本数据带来的负面语言迁移影响。
波兰语偏好语料库
我们创建了首个波兰语偏好语料库，其中包含由不同人口统计学背景的注释团队手动评估的提示和多个模型响应。这个数据集不仅教会模型正确性（事实和语言方面），还包括平衡性和安全性，特别是在处理有争议或对抗性的话题时。
评估基准
我们开发了自定义基准，用于评估模型在与波兰公共管理相关任务中的表现，PLLuM 在所有测试模型中取得了最高分。在更广泛的波兰语任务中，PLLuM 模型也达到了最先进的水平。

📦 模型描述

以下是主要 PLLuM 模型的总结，包括它们的许可证、基础模型和参数规模。所有模型名称都链接到特定的 Hugging Face 资源，而基础模型和许可证则链接到各自的来源或许可证参考。请注意，所有带有 -nc- 的模型仅用于非商业用途。

属性	详情
模型名称	[Llama - PLLuM - 8B - base](https://huggingface.co/CYFRAGOVPL/Llama - PLLuM - 8B - base)、[Llama - PLLuM - 8B - instruct](https://huggingface.co/CYFRAGOVPL/Llama - PLLuM - 8B - instruct) 等
参数规模	8B、12B、8×7B、70B 等
许可证	[Llama 3.1](https://huggingface.co/meta - llama/Llama - 3.1 - 8B/blob/main/LICENSE)、[Apache 2.0](https://www.apache.org/licenses/LICENSE - 2.0.txt)、[CC - BY - NC - 4.0](https://creativecommons.org/licenses/by - nc/4.0/legalcode.txt) 等
基础模型	[Llama3.1 - 8B](https://huggingface.co/meta - llama/Llama - 3.1 - 8B)、[Mistral - Nemo - Base - 2407](https://huggingface.co/mistralai/Mistral - Nemo - Base - 2407)、[Mixtral - 8x7B - v0.1](https://huggingface.co/mistralai/Mixtral - 8x7B - v0.1) 等

模型开发

预训练：所有模型都在大规模的波兰语语料库（最多 1500 亿个词元）以及一系列额外的斯拉夫/波罗的海语和英语文本上进行了预训练或持续预训练。
指令微调：我们在手动策划的波兰语“有机指令”（约 40000 条）、从优质波兰语语料库转换而来的指令（约 50000 条）以及由强大大语言模型生成的合成指令（约 10000 条）上对模型进行了优化。
对齐和偏好学习：手动标注的偏好数据教会模型生成更安全、平衡且上下文合适的响应，即使在对抗性或敏感情况下也是如此。
特定领域适配：为公共管理等任务开发了基于检索增强生成（RAG）的专业模型，在复杂信息检索和问答任务中表现出色。

📚 预期用例

通用语言任务：文本生成、摘要、问答等。
特定领域助手：特别适用于波兰公共管理以及需要领域感知检索的法律或官僚主题。
研发用途：在学术或工业环境中，作为下游人工智能应用的构建块，对波兰语的熟练掌握至关重要。

💻 使用示例

每个 PLLuM 模型都可以通过 Hugging Face Transformers 库（或兼容框架）加载。对于基于 RAG 的场景，需要将模型与相关的向量存储或文档检索系统配对使用。

基础用法

以下是一些推荐的步骤和代码片段：

1. 安装

确保你安装了最新版本的 transformers 和 torch（或其他兼容的深度学习框架）：

pip install transformers accelerate torch

2. 加载模型

使用以下示例加载其中一个 PLLuM 模型：

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "CYFRAGOVPL/PLLuM-12B-chat"  # 替换为你选择的 PLLuM 模型名称
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

3. 使用 bfloat16（BF16）

如果你的硬件（如较新的 GPU）支持 bfloat16，你可以减少内存使用并可能加快推理速度：

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "CYFRAGOVPL/PLLuM-12B-chat"
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 以 bfloat16 精度加载模型
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype=torch.bfloat16,
    device_map="auto"  # 自动将模型层放置在可用设备上
)

4. 生成示例文本

prompt = "Napisz krótki wiersz o wiośnie." # 英文："Write a short poem about spring."
inputs = tokenizer(prompt, return_tensors="pt").to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=50,
    do_sample=True,
    top_k=50,
    top_p=0.9,
    temperature=0.7
)

generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(generated_text)

5. 预期输出

以下是上述提示的一个示例（假设）输出：

Przykładowy wiersz o tematyce wiosennej:

Wiosna, wiosna, wiosna, ach to ty!
Kwiecień plecień wciąż przeplata,
trochę zimy, trochę lata.
A ja nie mogę się już doczekać,
kiedy w kalendarzu ujrzę maj.
Wtedy wszystko wkoło rozkwita,
a ptaki tak pięknie śpiewają.
Wiosno, wiosno, czekam z utęsknieniem,
zrób mi tę przyjemność i przyjdź wreszcie, proszę!

你的结果可能会因模型参数（如温度、top_k、top_p）、硬件和其他设置而有所不同。

6. 检索增强生成（RAG）

我们的 Llama - PLLuM 模型（聊天和指令版本）还经过了额外的训练，以在检索增强生成（RAG）设置中表现出色。提示采用 .jinja 格式，其中 docs 是文档文本列表，question 是应根据提供的文档回答的查询。如果提供的文档中没有答案，模型将生成“Nie udało mi się odnaleźć odpowiedzi na pytanie”。

提示：

Numerowana lista dokumentów jest poniżej:
---------------------
<results>{% for doc in docs %}
Dokument: {{ loop.index0 }}
{{ doc }}
{% endfor %}</results>
---------------------
Odpowiedz na pytanie użytkownika wykorzystując tylko informacje znajdujące się w dokumentach, a nie wcześniejszą wiedzę.
Udziel wysokiej jakości, poprawnej gramatycznie odpowiedzi w języku polskim. Odpowiedź powinna zawierać cytowania do dokumentów, z których pochodzą informacje. Zacytuj dokument za pomocą symbolu [nr_dokumentu] powołując się na fragment np. [0] dla fragmentu z dokumentu 0. Jeżeli w dokumentach nie ma informacji potrzebnych do odpowiedzi na pytanie, zamiast odpowiedzi zwróć tekst: "Nie udało mi się odnaleźć odpowiedzi na pytanie".

Pytanie: {{ question }}

🔧 训练过程

数据集：约 1500 亿个来自波兰语和多语言来源的词元，其中约 280 亿个词元可用于完全开源的商业用途。
超参数：根据模型大小而异，通常包括 Adam 或 AdamW 优化器、一系列批量大小和精心调整的学习率。
硬件和时长：使用 [Bem2](https://man.e - science.pl/pl/kdm/bem2) 高性能计算（HPC）进行训练（最多 300 个 H100 GPU）。每个模型的训练时间取决于参数大小和硬件配置（对于 80 亿 - 700 亿参数的模型，在多 GPU 集群上约需 8 至 25 天）。

评估和基准

公共管理：PLLuM 模型在与政府服务相关的专业任务中表现出色。
波兰语任务：在各种内部基准和标准语料库中，PLLuM 在准确性、连贯性和安全性指标上始终优于其他模型。
自定义测试：独特的偏好语料库和对齐测试确保了模型响应的健壮性、安全性和上下文准确性。

⚠️ 局限性和偏差

潜在的幻觉内容：与其他大语言模型一样，PLLuM 偶尔可能会产生事实错误或虚构的内容。
敏感性和偏差：尽管进行了广泛的偏好学习，但偏差仍可能出现，特别是在处理有争议或主观的话题时。
上下文长度：非常长的上下文任务可能会对某些模型造成挑战，具体取决于内存限制。

🌐 伦理考量

PLLuM 模型旨在用于建设性和负责任的用途。用户在生产环境中部署这些模型时应谨慎行事，特别是在敏感或受监管的领域。尽管已努力减少有害输出，但始终存在生成冒犯性、有偏差或不适当文本的风险。建议进行人为监督和尽职调查。

📄 引用

如果你在研究或部署中使用了 PLLuM 模型或本仓库的任何部分，请按以下方式引用（BibTeX）：

@unpublished{pllum2025, 
    title={PLLuM: A Family of Polish Large Language Models}, 
    author={PLLuM Consortium}, 
    year={2025} 
}

📄 许可证

PLLuM 家族中的不同模型根据不同的许可证发布（Apache 2.0、CC - BY - NC - 4.0 或 Llama 3.1 许可证）。请查看上述表格中每个模型的条目以获取详细信息。

👥 创建者和联盟

PLLuM 项目是波兰领先的科研机构与各领域专家之间的独特合作，共同致力于打造具有开创性的波兰语模型。这一研究合作汇聚了多元的专业能力与热情，为推动波兰人工智能的发展奠定了坚实基础。

机构	详情
波兰 Wrocław 理工大学	项目牵头单位
NASK PIB	-
波兰科学院计算机科学研究所	-
信息处理中心 PIB	-
罗兹大学	-
波兰科学院斯拉夫研究研究所	-