license: apache-2.0
language:
- pl
library_name: transformers
inference:
parameters:
temperature: 0.9
extra_gated_description: 若想了解更多关于如何使用该模型的信息,请参阅我们的使用条款。
Bielik-11B-v2
Bielik-11B-v2 是一个拥有110亿参数的生成式文本模型。该模型基于前代Mistral-7B-v0.2初始化,并训练了4000亿个token。
这一成果标志着开源科学项目SpeakLeash与高性能计算中心ACK Cyfronet AGH的独特合作。
该模型专为波兰语文本开发训练,语料由SpeakLeash团队精心筛选处理,依托波兰PLGrid环境的大规模计算基础设施,特别是ACK Cyfronet AGH的HPC中心。模型研发得到PLG/2024/016951计算项目支持,在Athena和Helios超级计算机上完成训练,运用了前沿技术和关键算力资源。最终模型展现出卓越的波兰语理解处理能力,能精准响应并高效完成各类语言任务。
⚠️ 此为基座模型,需针对具体场景微调。若需开箱即用的对话或指令跟随模型,请使用Bielik-11B-v.2.2-Instruct。
🎥 演示地址: https://chat.bielik.ai
🗣️ 竞技场*: https://arena.speakleash.org.pl/
*Chat Arena是测试对比AI语言模型的平台,用户可评估不同模型的性能表现。
模型架构
Bielik-11B-v2采用Megatron-LM框架训练,运用多种并行化技术。
训练在ACK Cyfronet AGH的Helios超算上完成,使用256张NVidia GH200显卡。
训练数据包含SpeakLeash项目收集的波兰语文本及CommonCrawl子集,共2000亿token(超700GB纯文本),训练两个epoch。
模型规格:
质量评估
我们构建了XGBoost分类模型评估波兰语文本质量,基于93项特征(如词汇表外词占比、名词动词数量、平均句长等)。模型输出文档质量等级(HIGH/MEDIUM/LOW)及置信概率,最终筛选质量指数为HIGH且概率超90%的文本。
这种过滤机制确保了训练数据的精炼优质。
快速使用
通过AutoModelForCausalLM可轻松加载模型:
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "speakleash/Bielik-11B-v2"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
为降低内存消耗,可使用低精度(bfloat16
):
import torch
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16)
通过HuggingFace管道生成文本:
import transformers
text = "人类在地球上最重要的目标是"
pipeline = transformers.pipeline("text-generation", model=model, tokenizer=tokenizer)
sequences = pipeline(max_new_tokens=100, do_sample=True, top_k=50, eos_token_id=tokenizer.eos_token_id, text_inputs=text)
for seq in sequences:
print(f"生成结果: {seq['generated_text']}")
示例输出:
人类在地球上最重要的目标是和平、和谐与爱。对我们每个人来说,被所爱之人环绕至关重要。
性能评估
模型在两个排行榜测试:Open PL LLM Leaderboard(波兰语)和Open LLM Leaderboard(英语)。前者采用5-shot评估波兰语NLP任务,后者测试英语任务。
Open PL LLM排行榜
该基准测试情感分析、分类等NLP任务(不含对话能力)。平均分是所有任务得分的基准标准化均值。
模型 |
参数量(B) |
平均分 |
Meta-Llama-3-70B |
70 |
62.07 |
Bielik-11B-v2 |
11 |
58.14 |
Mistral-7B-v0.2 |
7 |
38.81 |
关键发现:
- 在20B参数量以下模型中,Bielik-11B-v2以58.14分领先第二名8.75个百分点
- 显著超越前代Bielik-7B-v0.1(34.34分)
- 基于Mistral-7B-v0.2(38.81分)初始化,优化效果显著
Open LLM排行榜
模型 |
平均分 |
常识推理 |
语言理解 |
真实性 |
知识测试 |
完形填空 |
数学题 |
Bielik-11B-v2 |
65.87 |
79.84 |
77.82 |
46.13 |
63.06 |
60.58 |
67.78 |
核心优势:
- 在常识推理(hellaswag)和数学题(gsm8k)表现突出
- 虽主要训练波兰语数据,英语能力仍超越前代
- 在真实性(truthfulqa)任务上与Mistral-7B-v0.2保持竞争
局限性
Bielik-11B-v2未经微调不建议直接部署。可能存在事实性错误,或产生不当内容。虽然训练数据经过清洗,仍可能输出偏见/冒犯性内容。
引用格式
@misc{Bielik11Bv2b,
title = {Bielik-11B-v2模型说明},
author = {Ociepa, Krzysztof等},
year = {2024},
url = {https://huggingface.co/speakleash/Bielik-11B-v2}
}
核心开发团队
- Krzysztof OciepaSpeakLeash - 项目统筹
- Łukasz FlisCyfronet AGH - 训练监督
- Adrian GwoździejSpeakLeash - 数据清洗
- Krzysztof WróbelSpeakLeash - 基准测试
特别鸣谢SpeakLeash全体成员及ACK Cyfronet AGH团队的技术支持。
联系我们
如有疑问建议,可通过讨论区或加入SpeakLeash Discord直接交流。