license: apache-2.0
Qra 是一个专为波兰语优化的大语言模型系列,由波兰国家信息处理研究所(OPI)与格但斯克理工大学(PG)联合开发。模型训练依托PG TASK计算中心的21张Nvidia A100显卡完成。发布的Qra模型版本以英文LLama 2检查点权重为初始化基础,随后在约900亿token的波兰语精选语料库上继续训练。原始语料主要包含网络数据(如CommonCrawl抓取内容)和MADLAD-400语料库。
⚠️ 重要提示:Qra是基于因果语言建模目标训练的基础语言模型,不适合直接用于对话或指令跟随场景,需经过微调才能适配此类任务。 ⚠️
数据预处理流程包括:
- 文本标准化与URL去除
- 过滤字符数少于500的文档
- 基于启发式规则清洗文档句子(如删除非字母字符为主的句子及非波英双语内容)
- 使用人工标注的质量分类器筛选文档(评估指标包括波兰语词汇比例、词句平均长度、重复度及字符类别分布等)
- 基于KenLM轻量语言模型的困惑度过滤
- 通过训练分类器将文档划分至18个主题域
- 在各主题域内使用MinHash算法进行模糊去重
最终文档主题分布如下图所示:
模型详情
模型在4096 token长度的序列上训练了1个epoch,采用多项现代优化技术:
Qra-1B模型参数概览:
属性 |
值 |
基础模型 |
TinyLlama-1.1B |
许可协议 |
Apache 2.0 |
批次大小 |
1344 |
上下文长度 |
4096 |
学习率 |
2e-5 |
学习率衰减 |
余弦衰减 |
预热步数 |
0 |
训练时长 |
2天 |
性能评估
本节对比Qra与其他波英语言模型在波兰语文本上的困惑度表现。需注意不同文本分词的困惑度不可直接比较,因此仅限使用相同分词器的模型间对比(如Qra与原始LLama/TinyLLama)。
PolEval-2018基准
使用该竞赛语言建模任务的测试集前1万句评估,困惑度通过HuggingFace Evaluate库计算:
模型 | 困惑度 |
英语模型 |
meta-llama/Llama-2-7b-hf | 24.3 |
meta-llama/Llama-2-13b-hf | 21.4 |
mistralai/Mistral-7B-v0.1 | 21.4 |
TinyLlama/TinyLlama-1.1B | 40.4 |
波兰语模型 |
sdadas/polish-gpt2-small | 134.4 |
sdadas/polish-gpt2-medium | 100.8 |
sdadas/polish-gpt2-large | 93.2 |
sdadas/polish-gpt2-xl | 94.1 |
Azurro/APT3-275M-Base | 129.8 |
Azurro/APT3-500M-Base | 153.1 |
Azurro/APT3-1B-Base | 106.8 |
eryk-mazus/polka-1.1b | 18.1 |
szymonrucinski/Curie-7B-v1 | 13.5 |
Qra系列 |
OPI-PG/Qra-1b | 14.7 |
OPI-PG/Qra-7b | 11.3 |
OPI-PG/Qra-13b | 10.5 |
长文档测试(2024年)
为评估模型处理长文本能力,我们构建了5000份2024年新发布的波兰新闻与科学文献(多数超出模型上下文长度),按512 token步长分块计算困惑度:
模型 | 上下文 | 困惑度 |
英语模型 |
meta-llama/Llama-2-7b-hf | 4096 | 5.9 |
meta-llama/Llama-2-13b-hf | 4096 | 5.3 |
mistralai/Mistral-7B-v0.1 | 4096 | 4.9 |
TinyLlama/TinyLlama-1.1B | 2048 | 9.6 |
波兰语模型 |
sdadas/polish-gpt2-small | 2048 | 27.3 |
sdadas/polish-gpt2-medium | 2048 | 20.3 |
sdadas/polish-gpt2-large | 1536 | 18.0 |
sdadas/polish-gpt2-xl | 1536 | 16.6 |
Azurro/APT3-275M-Base | 2048 | 77.0 |
Azurro/APT3-500M-Base | 2048 | 50.5 |
Azurro/APT3-1B-Base | 2048 | 19.1 |
eryk-mazus/polka-1.1b | 2048 | 6.9 |
szymonrucinski/Curie-7B-v1 | 4096 | 4.8 |
Qra系列 |
OPI-PG/Qra-1b | 4096 | 6.1 |
OPI-PG/Qra-7b | 4096 | 4.5 |
OPI-PG/Qra-13b | 4096 | 4.2 |