🚀 Llama-3.1-Carballo
Llama-3.1-Carballo 是一款基于Transformer架构的因果语言模型,拥有80亿参数,支持加利西亚语、葡萄牙语、西班牙语、加泰罗尼亚语和英语。它能有效处理多语言文本生成任务,尤其在加利西亚语处理上表现出色。
🚀 快速开始
import torch
from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
input_text = "Hoxe fai un bo día. O sol "
model_id = "proxectonos/Llama-3.1-Carballo"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
generator = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto",
)
generation = generator(
input_text,
do_sample=True,
top_k=10,
eos_token_id=tokenizer.eos_token_id
)
print(f"Result: {generation[0]['generated_text']}")
✨ 主要特性
- 多语言支持:支持加利西亚语、葡萄牙语、西班牙语、加泰罗尼亚语和英语。
- 文本生成能力:可执行文本生成任务,也能针对特定场景进行微调。
📦 安装指南
文档未提及具体安装步骤,暂无法提供。
💻 使用示例
基础用法
import torch
from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
input_text = "Hoxe fai un bo día. O sol "
model_id = "proxectonos/Llama-3.1-Carballo"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
generator = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
torch_dtype=torch.bfloat16,
trust_remote_code=True,
device_map="auto",
)
generation = generator(
input_text,
do_sample=True,
top_k=10,
eos_token_id=tokenizer.eos_token_id
)
print(f"Result: {generation[0]['generated_text']}")
高级用法
文档未提及高级用法示例,暂无法提供。
📚 详细文档
模型描述
Llama-3.1-Carballo 是一个拥有80亿参数的基于Transformer的因果语言模型,适用于加利西亚语、葡萄牙语、西班牙语、加泰罗尼亚语和英语。它是在 meta-llama/Llama-3.1-8B 基础上,使用近200亿标记的多语言语料库进行持续预训练的结果,尤其侧重于加利西亚语文本。
此模型是 Carballo 系列 的一部分,该系列是专门针对加利西亚语的大语言模型。更小的模型可在 这里 找到。
预期用途和限制
Llama-3.1-Carballo 模型仅适用于因果语言建模,可执行文本生成任务,也能针对特定场景进行微调。
训练
工具
使用HuggingFace Transformers和Pytorch进行训练,采用 因果建模语言脚本。同时使用 DeepSpeed 处理模型的巨大规模。
训练数据
训练语料库包含5种语言的文本,重点是加利西亚语。主要目的是确保模型能够完美处理该语言,同时保留对已知语言(西班牙语、英语)的知识,学习其他语言(加泰罗尼亚语)或调整现有语言变体(葡萄牙语 - PT 而非葡萄牙语 - BR)。
语料库结构如下:
属性 |
详情 |
加利西亚语 |
标记数:50亿;主要来源:CorpusNós |
葡萄牙语 |
标记数:30亿;主要来源:多种 |
西班牙语 |
标记数:35亿;主要来源:多种 |
英语 |
标记数:34亿;主要来源:多种 |
加泰罗尼亚语 |
标记数:36亿;主要来源:CATalog |
训练超参数
- 种子:42
- 设备数量:5
- 训练批次大小:4
- 评估批次大小:4
- 梯度累积:8
- 优化器:AdamW
- 贝塔系数:(0.9, 0.999)
- 学习率:1e-04
- 训练轮数:1.0
框架
训练在加利西亚超级计算中心(CESGA)进行,使用5个节点,每个节点配备2个NVIDIA A100 GPU。
评估
评估工作正在进行中...
附加信息
联系信息
如需更多信息,请发送电子邮件至 proxecto.nos@usc.gal
许可证
本项目采用MIT许可证。
版权所有 (c) 2024 Proxecto Nós
特此免费授予任何获得本软件及相关文档文件(“软件”)副本的人不受限制地处理本软件的权利,包括但不限于使用、复制、修改、合并、发布、分发、再许可和/或出售软件副本的权利,并允许向其提供软件的人这样做,但须遵守以下条件:
上述版权声明和本许可声明应包含在所有副本或软件的重要部分中。
软件按“原样”提供,不提供任何形式的明示或暗示保证,包括但不限于适销性、特定用途适用性和不侵权的保证。在任何情况下,作者或版权持有人均不对因合同、侵权或其他方式引起的任何索赔、损害或其他责任负责,无论是在与软件或软件的使用或其他交易有关的任何行动中。
资金支持
该模型是在Nós项目中开发的,由 Ministerio para la Transformación Digital y de la Función Pública 资助,由欧盟 - 下一代欧盟在 ILENIA项目 框架内资助,参考编号为2022/TL22/00215336。