Bielik-11B-v2开源文本生成模型 - 专为波兰语量身打造，免费使用！

首页

Bielik 11B V2

由 speakleash 开发

Bielik-11B-v2 是一个拥有110亿参数的生成式文本模型，专为波兰语文本开发训练，基于Mistral-7B-v0.2初始化，训练了4000亿个token。

大型语言模型

Transformers

其他开源协议:Apache-2.0 #波兰语生成 #超算训练 #大参数基座

下载量 690

发布时间 : 8/26/2024

模型简介

该模型是开源科学项目SpeakLeash与高性能计算中心ACK Cyfronet AGH合作的成果，展现出卓越的波兰语理解处理能力，能精准响应并高效完成各类语言任务。

模型特点

大规模训练

基于前代Mistral-7B-v0.2初始化，并训练了4000亿个token，训练数据包含SpeakLeash项目收集的波兰语文本及CommonCrawl子集。

高质量数据

通过XGBoost分类模型评估波兰语文本质量，筛选质量指数为HIGH且概率超90%的文本，确保训练数据的精炼优质。

高性能计算

训练在ACK Cyfronet AGH的Helios超算上完成，使用256张NVidia GH200显卡，依托波兰PLGrid环境的大规模计算基础设施。

模型能力

波兰语文本生成

波兰语理解处理

语言任务响应

使用案例

语言处理

文本生成

生成波兰语文本，如文章、故事等。

能精准响应并高效完成各类语言任务。

情感分析

分析波兰语文本的情感倾向。

在Open PL LLM Leaderboard中表现优异。

🚀 Bielik-11B-v2

Bielik-11B-v2是一个拥有110亿参数的生成式文本模型。它基于其前身Mistral-7B-v0.2进行初始化，并在4000亿个标记上进行训练。该模型是开放科学/开源项目SpeakLeash与高性能计算（HPC）中心ACK Cyfronet AGH独特合作的成果。它使用由SpeakLeash团队精心挑选和处理的波兰语文本语料库进行开发和训练，借助了波兰的大规模计算基础设施，特别是在PLGrid环境中，更确切地说是在ACK Cyfronet AGH高性能计算中心。Bielik-11B-v2的创建和训练得到了计算资助编号PLG/2024/016951的支持，在Athena和Helios超级计算机上进行，这使得模型能够利用大规模机器学习过程所需的前沿技术和计算资源。因此，该模型展现出了卓越的理解和处理波兰语的能力，能够提供准确的响应，并高精度地执行各种语言任务。

🚀 快速开始

基础用法

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "speakleash/Bielik-11B-v2"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

高级用法

为了减少内存使用，可以使用较小的精度（bfloat16）。

import torch

model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16)

然后可以使用HuggingFace Pipelines来生成文本：

import transformers

text = "Najważniejszym celem człowieka na ziemi jest"

pipeline = transformers.pipeline("text-generation", model=model, tokenizer=tokenizer)
sequences = pipeline(max_new_tokens=100, do_sample=True, top_k=50, eos_token_id=tokenizer.eos_token_id, text_inputs=text)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")

生成的输出：

Najważniejszym celem człowieka na ziemi jest życie w pokoju, harmonii i miłości. Dla każdego z nas bardzo ważne jest, aby otaczać się kochanymi osobami.

✨ 主要特性

强大的波兰语处理能力：基于波兰语文本语料库进行训练，能够准确理解和处理波兰语，提供高精度的语言任务执行能力。
高性能计算支持：借助ACK Cyfronet AGH的超级计算机和计算资助，利用前沿技术和资源进行训练。
可扩展性：作为基础模型，适合进行进一步的微调，以满足不同的应用场景需求。

📦 安装指南

本模型可以通过transformers库轻松加载，无需额外复杂的安装步骤。只需确保已经安装了transformers库，然后按照上述快速开始部分的代码示例进行操作即可。

📚 详细文档

模型描述

属性	详情
开发团队	SpeakLeash & ACK Cyfronet AGH
语言	波兰语
模型类型	因果解码器模型
初始化模型	Mistral-7B-v0.2
许可证	Apache 2.0 和使用条款
模型引用	speakleash:45b6efdb701991181a05968fc53d2a8e

质量评估

为了评估波兰语原生文本的质量，准备并创建了一个XGBoost分类模型。该模型基于93个特征，如词汇外单词与所有单词的比例（OOVs）、名词和动词的数量、平均句子长度等。模型会输出给定文档的类别（高、中或低）以及相应的概率。这种方法允许实现一个专门的管道来选择文本，我们使用了质量指数高且概率超过90%的条目。通过这种过滤和适当的文本选择，为训练提供了一个精简且高质量的波兰语文本数据库。

评估结果

Open PL LLM Leaderboard

该基准测试评估模型在情感分析、分类、文本分类等NLP任务中的表现，但不测试聊天技能。平均列是所有任务的平均得分，通过基线得分进行归一化。

模型	参数（B）	平均得分
Meta-Llama-3-70B	70	62.07
Qwen1.5-72B	72	61.11
Meta-Llama-3.1-70B	70	60.87
Mixtral-8x22B-v0.1	141	60.75
Qwen1.5-32B	32	58.71
Bielik-11B-v2	11	58.14
Qwen2-7B	7	49.39
SOLAR-10.7B-v1.0	10.7	47.54
Mistral-Nemo-Base-2407	12	47.28
internlm2-20b	20	47.15
Meta-Llama-3.1-8B	8	43.77
Meta-Llama-3-8B	8	43.30
Mistral-7B-v0.2	7	38.81
Bielik-7B-v0.1	7	34.34
Qra-13b	13	33.90
Qra-7b	7	16.60

Open PL LLM Leaderboard的结果显示，拥有110亿参数的Bielik-11B-v2模型平均得分达到58.14。这使其成为参数少于200亿的模型中表现最好的模型，比该类别中第二好的模型高出8.75个百分点。这一显著优势不仅使其超越了其前身Bielik-7B-v0.1（得分34.34），还证明了它优于其他更大的模型。这一巨大的改进凸显了该新版本所取得的显著进步和优化。

Open LLM Leaderboard

Open LLM Leaderboard评估模型在各种英语语言任务中的表现，为模型在不同语言挑战中的性能提供了见解。

模型	平均得分	arc_challenge	hellaswag	truthfulqa_mc2	mmlu	winogrande	gsm8k
Bielik-11B-v2	65.87	60.58	79.84	46.13	63.06	77.82	67.78
Mistral-7B-v0.2	60.37	60.84	83.08	41.76	63.62	78.22	34.72
Bielik-7B-v0.1	49.98	45.22	67.92	47.16	43.20	66.85	29.49

Open LLM Leaderboard的结果表明，Bielik-11B-v2在各种NLP任务中表现出色。平均得分65.87，显著优于其前身Bielik-7B-v0.1，甚至超过了作为其初始权重基础的Mistral-7B-v0.2。

主要观察结果：

与Bielik-7B-v0.1相比，Bielik-11B-v2在大多数类别中都有显著改进，凸显了模型增强的有效性。
它在hellaswag（常识推理）、winogrande（常识推理）和gsm8k（数学问题解决）等任务中表现出色，表明它在不同类型的语言理解和生成任务中具有多功能性。
虽然Mistral-7B-v0.2在truthfulqa_mc2任务中表现更好，但Bielik-11B-v2在这个辨别事实的任务中仍保持了有竞争力的表现。

尽管Bielik-11B-v2主要在波兰语数据上进行训练，但它保留并甚至提高了其理解和处理英语的能力，这从其在这些英语语言基准测试中的强劲表现可以看出。这表明该模型有效地利用了跨语言迁移学习，在保持波兰语专业能力的同时增强了其英语语言能力。

🔧 技术细节

Bielik-11B-v2使用Megatron-LM进行训练，并采用了不同的并行化技术。模型训练在ACK Cyfronet AGH的Helios超级计算机上进行，使用了256张NVidia GH200显卡。训练数据集由通过SpeakLeash项目收集和提供的波兰语文本以及CommonCrawl数据的一个子集组成。我们使用了2000亿个标记（超过700GB的纯文本）进行了两个轮次的训练。

📄 许可证

本模型使用Apache 2.0许可证和使用条款。

⚠️ 重要提示

这是一个基础模型，适用于大多数用例的进一步微调。如果您正在寻找一个可以直接用于聊天或遵循指令的模型，请使用Bielik-11B-v.2.2-Instruct。

⚠️ 重要提示

Bielik-11B-v2不适合在未进行微调的情况下直接部署。在没有进一步的防护措施和用户同意的情况下，不应将其用于与人类的交互。该模型可能会产生事实错误的输出，不应依赖它来生成事实准确的数据。Bielik-11B-v2在各种公共数据集上进行训练，尽管已经尽力清理训练数据，但该模型仍有可能生成淫秽、虚假、有偏见或其他冒犯性的输出。

引用

请使用以下格式引用此模型：

@misc{Bielik11Bv2b,
    title     = {Bielik-11B-v2 model card},
    author    = {Ociepa, Krzysztof and Flis, Łukasz and Wróbel, Krzysztof and Gwoździej, Adrian and {SpeakLeash Team} and {Cyfronet Team}},
    year      = {2024},
    url       = {https://huggingface.co/speakleash/Bielik-11B-v2},
    note      = {Accessed: 2024-08-28},
    urldate   = {2024-08-28}
}
@unpublished{Bielik11Bv2a,
  author = {Ociepa, Krzysztof and Flis, Łukasz and Kinas, Remigiusz and Gwoździej, Adrian and Wróbel, Krzysztof},
  title  = {Bielik: A Family of Large Language Models for the Polish Language - Development, Insights, and Evaluation},
  year   = {2024},
}
@misc{ociepa2024bielik7bv01polish,
      title={Bielik 7B v0.1: A Polish Language Model -- Development, Insights, and Evaluation}, 
      author={Krzysztof Ociepa and Łukasz Flis and Krzysztof Wróbel and Adrian Gwoździej and Remigiusz Kinas},
      year={2024},
      eprint={2410.18565},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2410.18565}, 
}

模型训练负责人

Krzysztof Ociepa^SpeakLeash - 团队领导、概念设计、数据准备、流程优化和训练监督
Łukasz Flis^{Cyfronet AGH} - 协调和监督训练
Adrian Gwoździej^SpeakLeash - 数据清理和质量控制
Krzysztof Wróbel^SpeakLeash - 基准测试

如果没有整个SpeakLeash团队的奉献和努力，这个模型是无法创建的，他们的贡献是无价的。由于许多人的辛勤工作，才有可能收集到大量的波兰语内容，并在开放科学SpeakLeash项目和HPC中心ACK Cyfronet AGH之间建立了合作关系。为模型创建做出贡献的个人包括： Grzegorz Urbanowicz、 Igor Ciuciura、 Jacek Chwiła、 Szymon Baczyński、 Paweł Kiszczak、 Aleksander Smywiński-Pohl。

ACK Cyfronet AGH团队提供了宝贵支持和专业知识的成员包括： Szymon Mazurek、 Marek Magryś。