语言:
- 荷兰语
许可证: MIT
标签:
- trl
- fietje
- alignment-handbook
基础模型: microsoft/phi-2
数据集:
- uonlp/CulturaX
- wikimedia/wikipedia
- BramVanroy/wikipedia_culturax_dutch
管道标签: 文本生成
推理: 不支持
模型索引:
- 名称: fietje-2
结果: []
Fietje 2
一个面向荷兰语的开源高效大语言模型
👱♀️ 基础版本 (当前) -
🤖 指令版本 -
💬 对话版本 -
🚀 基础版GGUF
立即体验Fietje对话!
Fietje是基于microsoft/phi-2的适配版本,通过280亿荷兰语token的训练专门优化了荷兰语文本生成能力。这个仅27亿参数的高效小模型,其性能却可媲美GEITje 7B Ultra等两倍体量的荷兰语大模型。
关于Fietje的创建过程、评估细节及使用示例,请参阅GitHub代码库。
引用
若您使用Fietje或经过筛选的CulturaX+Wikipedia子集,请引用以下论文:
@misc{vanroy2024fietjeopenefficientllm,
title={Fietje:面向荷兰语的开源高效大语言模型},
author={Bram Vanroy},
year={2024},
eprint={2412.15450},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.15450},
}
使用范围与限制
本模型与phi-2及所有大语言模型存在相同局限:可能产生幻觉输出、存在错误且不可完全信赖。使用风险需自行承担!
训练数据
Fietje使用280亿荷兰语token进行持续预训练,其中包含完整的荷兰语维基百科语料(约占比15%)及来自CulturaX的荷兰语内容。经过严格筛选的高质量数据集最新版本详见此处。
训练过程
特别感谢弗拉芒超级计算中心(VSC)为本项目提供的算力支持。在4个节点(共16张A100 80GB显卡)上,包含队列等待时间在内的完整训练耗时约两周。
训练采用卓越的alignment-handbook框架,后端使用DeepSpeed。具体训练配方与SLURM脚本详见GitHub代码库。
训练超参数
关键训练参数配置:
- 学习率:9e-05
- 训练批大小:40
- 评估批大小:40
- 随机种子:42
- 分布式类型:多GPU
- 设备数量:16
- 梯度累积步数:3
- 总训练批大小:1920
- 总评估批大小:640
- 优化器:Adam(β1=0.9,β2=0.98,ε=1e-07)
- 学习率调度器:线性
- 训练轮次:1.0
训练结果
训练损失 |
训练轮次 |
步数 |
验证损失 |
1.6334 |
0.13 |
900 |
1.5937 |
1.5469 |
0.26 |
1800 |
1.5051 |
1.4937 |
0.4 |
2700 |
1.4628 |
1.4633 |
0.53 |
3600 |
1.4375 |
1.4485 |
0.66 |
4500 |
1.4203 |
1.4374 |
0.79 |
5400 |
1.4085 |
1.4278 |
0.92 |
6300 |
1.4013 |
框架版本
- Transformers 4.39.1
- PyTorch 2.1.2+cu121
- Datasets 2.18.0
- Tokenizers 0.15.2