Llama-3-8B开源北欧语言模型 - 免费支持瑞典语、丹麦语和挪威语文本生成

首页

Llama 3 8B

由 AI-Sweden-Models 开发

基于Meta-Llama-3-8B的北欧语言模型，支持瑞典语、丹麦语和挪威语文本生成

大型语言模型

Transformers

其他#北欧多语言生成 #长序列建模(8192)#瑞典语优化

下载量 768

发布时间 : 5/13/2024

模型简介

这是一个基础语言模型，专门针对北欧语言（瑞典语、丹麦语、挪威语）进行了微调，可用于文本生成任务或作为特定应用的基座模型

模型特点

北欧语言优化

专门针对瑞典语、丹麦语和挪威语进行了完整微调

长上下文支持

支持8192个token的上下文长度

大规模训练

在2270亿标记的北欧语料库上训练

模型能力

北欧语言文本生成

长文本连贯性保持

基础语言理解

使用案例

内容创作

北欧语言文章生成

生成瑞典语、丹麦语或挪威语的连贯文章

示例展示了流畅的瑞典语文本生成能力

教育应用

语言学习辅助

为北欧语言学习者提供写作辅助

🚀 AI-Sweden-Models/Llama-3-8B

本项目是基于Meta-Llama-3-8B继续预训练得到的模型，支持瑞典语、丹麦语和挪威语，可用于文本生成任务，还能针对特定用例进行微调。

🚀 快速开始

预期用途

这是一个基础模型，可以针对特定用例进行微调。

-----> 指令版本在此 <-----

使用transformers库调用

以下是使用Transformers库调用该模型的代码片段：

import transformers
import torch

model_id = "AI-Sweden-Models/Llama-3-8B"

pipeline = transformers.pipeline(
    task="text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto"
)

pipeline(
    text_inputs="Sommar och sol är det bästa jag vet",
    max_length=128,
    repetition_penalty=1.03
)

>>> "Sommar och sol är det bästa jag vet!
Och nu när jag har fått lite extra semester så ska jag njuta till max av allt som våren och sommaren har att erbjuda.
Jag har redan börjat med att sitta ute på min altan och ta en kopp kaffe och läsa i tidningen, det är så skönt att bara sitta där och njuta av livet.

Ikväll blir det grillat och det ser jag fram emot!"

✨ 主要特性

多语言支持：支持瑞典语、丹麦语和挪威语。
可微调性：作为基础模型，可针对特定用例进行微调。

📚 详细文档

训练信息

AI-Sweden-Models/Llama-3-8B 是在 meta-llama/Meta-Llama-3-8B 的基础上继续进行预训练的。它在 The Nordic Pile 数据集的一个子集中进行训练，该子集包含瑞典语、挪威语和丹麦语。训练针对所有模型参数进行，属于全量微调。

训练数据集包含 227 105 079 296 个标记。训练在德克萨斯州奥斯汀市戴尔技术边缘创新中心的 Rattler 超级计算机上进行。训练使用了 23 个节点，持续时间为 30 天，每个节点包含 4 个 Nvidia A100 GPU，总共使用了 92 个 GPU。

训练配置文件

trainer.yaml

learning_rate: 2e-5
warmup_steps: 100
lr_scheduler: cosine
optimizer: adamw_torch_fused
max_grad_norm: 1.0
gradient_accumulation_steps: 16
micro_batch_size: 1
num_epochs: 1
sequence_len: 8192

deepspeed_zero2.json

{
  "zero_optimization": {
    "stage": 2,
    "offload_optimizer": {
      "device": "cpu"
    },
    "contiguous_gradients": true,
    "overlap_comm": true
  },
  "bf16": {
    "enabled": "auto"
  },
  "fp16": {
    "enabled": "auto",
    "auto_cast": false,
    "loss_scale": 0,
    "initial_scale_power": 32,
    "loss_scale_window": 1000,
    "hysteresis": 2,
    "min_loss_scale": 1
  },
  "gradient_accumulation_steps": "auto",
  "gradient_clipping": "auto",
  "train_batch_size": "auto",
  "train_micro_batch_size_per_gpu": "auto",
  "wall_clock_breakdown": false
}

检查点

日期	步数
2024/6/15	18833
2024/6/11	16000
2024/6/7	14375
2024/6/3	11525
2024/5/29	8200
2024/5/26	6550
2024/5/24	5325
2024/5/22	3900
2024/5/20	2700
2024/5/13	1500

📄 许可证

该模型使用 llama3 许可证。

模型信息表格

属性	详情
模型类型	文本生成模型
基础模型	meta-llama/Meta-Llama-3-8B
训练数据	来自 The Nordic Pile 的包含瑞典语、挪威语和丹麦语的子集
支持语言	瑞典语、丹麦语、挪威语
推理参数	温度：0.6
许可证	llama3
标签	pytorch、llama、llama-3、ai-sweden