license: apache-2.0
datasets:
- BUT-FIT/BUT-LCC
- BUT-FIT/adult_content_classifier_dataset
language:
- cs
简介
CSMPT7b是基于英语MPT7b模型持续预训练的大型捷克语模型,训练语料达2720亿token。该模型使用捷克语分词器在约670亿token的捷克大型语料集上预训练,通过我们的词汇替换方法实现(详见下文)。训练在Karolina超算集群完成。
BUT语言模型系列
最新动态
评估
CS-HellaSwag开发集评估(自动翻译的HellaSwag基准):
模型 |
CS-HellaSwag准确率 |
mistral7b |
0.4992 |
csmpt@130k步骤[已发布] |
0.5004 |
csmpt@100k步骤 |
0.4959 |
csmpt@75k步骤 |
0.4895 |
csmpt@50k步骤 |
0.4755 |
csmpt@26.5k步骤 |
0.4524 |
注:训练过程中CS-Hellaswag验证显示,10万步后改进趋于噪声水平,相对mistral7b的提升不显著。
损失波动
训练中出现多次损失突增现象。由于模型总能恢复且7B模型训练预算有限,我们持续训练。在GPT-2小模型的预实验中,我们发现:
训练语料
采用三套动态切换的语料:
- 用于Czech GPT-2训练的原始语料(156亿token)
- 主要来自HPLT和CulturaX的语料(679亿token)
- 经线性分类器过滤不适宜内容后的语料(660亿token)

图1:训练损失曲线

图2:标注语料切换点(#1→#2→#2.1),112k-119.5k步因日志丢失呈平直

图3:在语料#1上的测试损失,显示:
- (a) 语料#1分布略优于语料#2
- (b) 94k步的局部发散现象不受语料#3或优化器重置影响
训练方法
词汇替换
通过对齐英捷词汇表并复制词向量实现知识迁移:

图4:词汇替换法(替换1.7K token)对比从头训练的效果

图5:MPT-7B模型英捷迁移(黄红曲线)显著优于从头训练(蓝绿曲线)
具体方法同Czech-GPT-2,本次对齐4,177个英捷token。
超参数
未列参数保持MPT原配置:
参数 |
值 |
说明 |
最大序列长度 |
2048 |
|
批次大小 |
1024 |
|
学习率 |
1.0e-4 |
|
优化器 |
LionW |
β=(0.9,0.95) |
调度器 |
余弦退火 |
最终学习率=初始×0.1 |
使用指南
环境配置
pip install transformers==4.37.2 torch==2.1.2 einops==0.7.0
pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.5.3/flash_attn-2.5.3+cu122torch2.1cxx11abiFALSE-cp39-cp39-linux_x86_64.whl
推理示例
import torch
from transformers import pipeline
pipe = pipeline('text-generation',
model='BUT-FIT/csmpt7b',
device='cuda:0',
torch_dtype=torch.bfloat16)
with torch.autocast('cuda', dtype=torch.bfloat16):
print(pipe('Nejznámějším českým spisovatelem ',
max_new_tokens=100,
top_p=0.95))
训练数据
95.79%训练语料已公开为BUT-Large捷克语集
发布计划
阶段 |
内容 |
日期 |
1 |
最佳模型+训练数据 |
2024.03.13 |
2 |
全检查点+训练代码 |
2024.04.10(代码因LLM foundry版本过时未发布) |
3 |
捷克语评估基准__BenCzechMark__ |
2024.10.01 |
4 |
预印本发布 |
2024.12.23 已发布 |
联系
咨询请联系:martin.fajcik@vut.cz
免责声明
本模型为概率模型,可能输出随机信息。作者不对模型输出负责,使用风险自负。
致谢
本研究由捷克文化部NAKI III计划项目semANT(编号DH23P03OVV060)和捷克教育青年体育部e-INFRA CZ(编号90254)资助。
引用
@article{benczechmark,
title={BenCzechMark: 捷克语机器理解基准},
author={Martin Fajčík等},
journal={arXiv预印本},
year={2024}
}