语言:
- 瑞典语
- 丹麦语
- 挪威语
许可证: llama3
标签:
- pytorch
- llama
- llama-3
- 瑞典人工智能
基础模型: meta-llama/Meta-Llama-3-8B
管道标签: 文本生成
推理参数:
温度: 0.6
AI-Sweden-Models/Llama-3-8B

预期用途:
这是一个基础模型,可以针对特定用例进行微调。
-----> 指令版本点这里 <-----
与Transformers一起使用
以下是使用Transformers的代码片段:
import transformers
import torch
model_id = "AI-Sweden-Models/Llama-3-8B"
pipeline = transformers.pipeline(
task="文本生成",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto"
)
pipeline(
text_inputs="夏天和阳光是我最喜欢的东西",
max_length=128,
repetition_penalty=1.03
)
>>> "夏天和阳光是我最喜欢的东西!
现在我有了一些额外的假期,我要尽情享受春天和夏天带来的一切。
我已经开始坐在阳台上喝咖啡看报纸了,就这样坐着享受生活真是太棒了。
今晚要烧烤,我已经迫不及待了!"
训练信息
AI-Sweden-Models/Llama-3-8B
是 meta-llama/Meta-Llama-3-8B
预训练过程的延续。
它是在包含瑞典语、挪威语和丹麦语的 北欧语料库 子集上训练的。训练涉及所有模型参数,是一个完整的微调。
训练数据集包含 227,105,079,296 个标记。训练在德克萨斯州奥斯汀戴尔技术边缘创新中心的 Rattler 超级计算机上进行。使用了23个节点,持续30天,每个节点包含4块Nvidia A100 GPU,共计92块GPU。
trainer.yaml:
学习率: 2e-5
预热步数: 100
学习率调度器: 余弦
优化器: adamw_torch_fused
最大梯度范数: 1.0
梯度累积步数: 16
微批次大小: 1
训练轮数: 1
序列长度: 8192
deepspeed_zero2.json:
{
"zero_optimization": {
"stage": 2,
"offload_optimizer": {
"device": "cpu"
},
"contiguous_gradients": true,
"overlap_comm": true
},
"bf16": {
"enabled": "auto"
},
"fp16": {
"enabled": "auto",
"auto_cast": false,
"loss_scale": 0,
"initial_scale_power": 32,
"loss_scale_window": 1000,
"hysteresis": 2,
"min_loss_scale": 1
},
"gradient_accumulation_steps": "auto",
"gradient_clipping": "auto",
"train_batch_size": "auto",
"train_micro_batch_size_per_gpu": "auto",
"wall_clock_breakdown": false
}

检查点
- 2024年6月15日 (18833步) => 1轮训练
- 2024年6月11日 (16000步)
- 2024年6月7日 (14375步)
- 2024年6月3日 (11525步)
- 2024年5月29日 (8200步)
- 2024年5月26日 (6550步)
- 2024年5月24日 (5325步)
- 2024年5月22日 (3900步)
- 2024年5月20日 (2700步)
- 2024年5月13日 (1500步)