B

Bielik 11B V2

由 speakleash 开发
Bielik-11B-v2 是一个拥有110亿参数的生成式文本模型,专为波兰语文本开发训练,基于Mistral-7B-v0.2初始化,训练了4000亿个token。
下载量 690
发布时间 : 8/26/2024
模型介绍
内容详情
替代品

模型简介

该模型是开源科学项目SpeakLeash与高性能计算中心ACK Cyfronet AGH合作的成果,展现出卓越的波兰语理解处理能力,能精准响应并高效完成各类语言任务。

模型特点

大规模训练
基于前代Mistral-7B-v0.2初始化,并训练了4000亿个token,训练数据包含SpeakLeash项目收集的波兰语文本及CommonCrawl子集。
高质量数据
通过XGBoost分类模型评估波兰语文本质量,筛选质量指数为HIGH且概率超90%的文本,确保训练数据的精炼优质。
高性能计算
训练在ACK Cyfronet AGH的Helios超算上完成,使用256张NVidia GH200显卡,依托波兰PLGrid环境的大规模计算基础设施。

模型能力

波兰语文本生成
波兰语理解处理
语言任务响应

使用案例

语言处理
文本生成
生成波兰语文本,如文章、故事等。
能精准响应并高效完成各类语言任务。
情感分析
分析波兰语文本的情感倾向。
在Open PL LLM Leaderboard中表现优异。