license: apache-2.0
language:
- pl
library_name: transformers
inference:
parameters:
temperature: 0.7
extra_gated_description: 若需了解模型使用详情,请参阅我们的使用条款。
Bielik-4.5B-v3
Bielik-4.5B-v3是一款拥有46亿参数生成式文本模型。该模型是开源科研项目SpeakLeash与高性能计算中心ACK Cyfronet AGH独特合作的成果。基于SpeakLeash团队精选处理的波兰语料库,依托波兰PLGrid超级计算环境(特别是ACK Cyfronet AGH的HPC中心),在Athena和Helios超算上通过PLG/2024/017214与PLG/2025/018338计算资助完成训练。该模型展现出卓越的波兰语理解处理能力,可精准执行各类语言任务。
‚ö†Ô∏è 此为基座模型,需针对具体场景微调。如需开箱即用的对话/指令跟随模型,请使用Bielik-4.5B-v3-Instruct。
üìö 技术报告:https://arxiv.org/abs/2505.02550
模型架构
Bielik-4.5B-v3在ACK Cyfronet AGH的Helios超算上完成训练,使用256块NVidia GH200显卡。训练数据包含SpeakLeash项目收集的波兰语文本及CommonCrawl子集,共使用2920亿token训练1.2个epoch。模型采用Krzysztof Ociepa开发的ALLaMo开源框架训练,该框架能高效训练类LLaMA/Mistral架构的模型。
模型信息
质量评估
采用XGBoost分类模型(含93项特征如OOV词比例、名词动词数量、平均句长等)评估波兰语文本质量,输出HIGH/MEDIUM/LOW三级分类及置信度。训练仅选用质量评级为HIGH且置信度超90%的文本,确保语料库精炼优质。
快速使用
通过AutoModelForCausalLM加载模型:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "speakleash/Bielik-4.5B-v3"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
降低内存占用可选用bfloat16精度:
import torch
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16)
使用HuggingFace管道生成文本:
import transformers
text = "Najważniejszym celem człowieka na ziemi jest"
pipeline = transformers.pipeline("text-generation", model=model, tokenizer=tokenizer)
sequences = pipeline(max_new_tokens=100, do_sample=True, top_k=50, eos_token_id=tokenizer.eos_token_id, text_inputs=text)
for seq in sequences:
print(f"生成结果: {seq['generated_text']}")
示例输出:
人类在地球上最重要的目标是生活在和平、和谐与爱中。对我们每个人来说,被所爱之人环绕至关重要。
局限性
Bielik-4.5B-v3未经微调不建议直接部署。该模型可能产生事实性错误、偏见或冒犯性内容,使用需配合防护措施。
引用格式
@misc{ociepa2025bielikv3smalltechnical,
title={Bielik v3 Small技术报告},
author={Krzysztof Ociepa and Łukasz Flis and Remigiusz Kinas and Krzysztof Wróbel and Adrian Gwoździej},
year={2025},
eprint={2505.02550},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2505.02550},
}
@misc{Bielik11Bv2b,
title = {Bielik-45B-v3模型卡},
author = {Ociepa, Krzysztof and Flis, ≈Åukasz and Wr√≥bel, Krzysztof and Gwo≈∫dziej, Adrian and {SpeakLeash团队} and {Cyfronet团队}},
year = {2025},
url = {https://huggingface.co/speakleash/Bielik-4.5B-v3},
note = {访问日期: 2025-05-06},
urldate = {2025-05-06}
}
核心开发团队
特别感谢SpeakLeash全体成员及ACK Cyfronet AGH团队的支持,完整贡献者名单详见原文。本研究使用PLGrid计算设施(资助号PLG/2024/017214与PLG/2025/018338)。
联系我们
如有疑问建议,可通过讨论区或加入SpeakLeash Discord直接交流。