🚀 AI-Sweden-Models/Llama-3-8B
本项目是基于Meta-Llama-3-8B继续预训练得到的模型,支持瑞典语、丹麦语和挪威语,可用于文本生成任务,还能针对特定用例进行微调。
🚀 快速开始
预期用途
这是一个基础模型,可以针对特定用例进行微调。
-----> 指令版本在此 <-----
使用transformers库调用
以下是使用Transformers库调用该模型的代码片段:
import transformers
import torch
model_id = "AI-Sweden-Models/Llama-3-8B"
pipeline = transformers.pipeline(
task="text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto"
)
pipeline(
text_inputs="Sommar och sol är det bästa jag vet",
max_length=128,
repetition_penalty=1.03
)
>>> "Sommar och sol är det bästa jag vet!
Och nu när jag har fått lite extra semester så ska jag njuta till max av allt som våren och sommaren har att erbjuda.
Jag har redan börjat med att sitta ute på min altan och ta en kopp kaffe och läsa i tidningen, det är så skönt att bara sitta där och njuta av livet.
Ikväll blir det grillat och det ser jag fram emot!"
✨ 主要特性
- 多语言支持:支持瑞典语、丹麦语和挪威语。
- 可微调性:作为基础模型,可针对特定用例进行微调。
📚 详细文档
训练信息
AI-Sweden-Models/Llama-3-8B
是在 meta-llama/Meta-Llama-3-8B
的基础上继续进行预训练的。它在 The Nordic Pile 数据集的一个子集中进行训练,该子集包含瑞典语、挪威语和丹麦语。训练针对所有模型参数进行,属于全量微调。
训练数据集包含 227 105 079 296 个标记。训练在德克萨斯州奥斯汀市戴尔技术边缘创新中心的 Rattler 超级计算机上进行。训练使用了 23 个节点,持续时间为 30 天,每个节点包含 4 个 Nvidia A100 GPU,总共使用了 92 个 GPU。
训练配置文件
trainer.yaml
learning_rate: 2e-5
warmup_steps: 100
lr_scheduler: cosine
optimizer: adamw_torch_fused
max_grad_norm: 1.0
gradient_accumulation_steps: 16
micro_batch_size: 1
num_epochs: 1
sequence_len: 8192
deepspeed_zero2.json
{
"zero_optimization": {
"stage": 2,
"offload_optimizer": {
"device": "cpu"
},
"contiguous_gradients": true,
"overlap_comm": true
},
"bf16": {
"enabled": "auto"
},
"fp16": {
"enabled": "auto",
"auto_cast": false,
"loss_scale": 0,
"initial_scale_power": 32,
"loss_scale_window": 1000,
"hysteresis": 2,
"min_loss_scale": 1
},
"gradient_accumulation_steps": "auto",
"gradient_clipping": "auto",
"train_batch_size": "auto",
"train_micro_batch_size_per_gpu": "auto",
"wall_clock_breakdown": false
}
检查点
日期 |
步数 |
2024/6/15 |
18833 |
2024/6/11 |
16000 |
2024/6/7 |
14375 |
2024/6/3 |
11525 |
2024/5/29 |
8200 |
2024/5/26 |
6550 |
2024/5/24 |
5325 |
2024/5/22 |
3900 |
2024/5/20 |
2700 |
2024/5/13 |
1500 |
📄 许可证
该模型使用 llama3 许可证。
模型信息表格
属性 |
详情 |
模型类型 |
文本生成模型 |
基础模型 |
meta-llama/Meta-Llama-3-8B |
训练数据 |
来自 The Nordic Pile 的包含瑞典语、挪威语和丹麦语的子集 |
支持语言 |
瑞典语、丹麦语、挪威语 |
推理参数 |
温度:0.6 |
许可证 |
llama3 |
标签 |
pytorch、llama、llama-3、ai-sweden |