license: llama2
datasets:
- HiTZ/latxa-corpus-v1.1
language:
- eu
- en
metrics:
- accuracy
- f1
- perplexity
pipeline_tag: text-generation
model-index:
- name: Latxa-7b-v1.2
results:
- task:
type: multiple-choice
dataset:
name: xstory_cloze
type: XStory
metrics:
- name: 零样本准确率
type: 零样本准确率
value: 65.45
source:
name: 论文
url: https://arxiv.org/abs/2403.20266
- task:
type: multiple-choice
dataset:
name: belebele
type: Belebele
metrics:
- name: 五样本准确率
type: 五样本准确率
value: 37.33
source:
name: 论文
url: https://arxiv.org/abs/2403.20266
- task:
type: mix
dataset:
name: basque_glue
type: BasqueGLUE
metrics:
- name: 五样本平均得分
type: 五样本平均得分
value: 52.56
source:
name: 论文
url: https://arxiv.org/abs/2403.20266
- task:
type: multiple_choice
dataset:
name: eus_proficiency
type: EusProficiency
metrics:
- name: 五样本准确率
type: 五样本准确率
value: 30.26
source:
name: 论文
url: https://arxiv.org/abs/2403.20266
- task:
type: multiple_choice
dataset:
name: eus_reading
type: EusReading
metrics:
- name: 五样本准确率
type: 五样本准确率
value: 25.00
source:
name: 论文
url: https://arxiv.org/abs/2403.20266
- task:
type: multiple_choice
dataset:
name: eus_trivia
type: EusTrivia
metrics:
- name: 五样本准确率
type: 五样本准确率
value: 42.16
source:
name: 论文
url: https://arxiv.org/abs/2403.20266
- task:
type: multiple_choice
dataset:
name: eus_exams
type: EusExams
metrics:
- name: 五样本准确率
type: 五样本准确率
value: 33.82
source:
name: 论文
url: https://arxiv.org/abs/2403.20266
Latxa 7b模型卡片
我们推出Latxa系列大语言模型,包含70亿至700亿参数规模,专为巴斯克语设计。该模型基于Llama 2架构,使用包含430万文档、42亿token的新巴斯克语语料库进行持续预训练。全面评估显示,Latxa大幅超越所有对比的开放模型,在语言熟练度和理解力方面与GPT-4 Turbo相当,但在阅读理解和知识密集型任务上稍逊。Latxa模型家族、预训练语料库及评估数据集均以开放许可公开发布,为低资源语言的大模型研究提供可复现的完整工具链。
模型详情
模型描述
Latxa是基于MetaLLaMA模型构建的大语言模型家族。当前大模型在英语等高资源语言表现卓越,但对巴斯克语等低资源语言的性能接近随机猜测。这种局限加剧了数字时代高低资源语言间的鸿沟。Latxa旨在突破这些限制,推动巴斯克语大模型技术与研究发展。该系列模型保持原版架构,并在高质量巴斯克语料库Latxa Corpus v1.1上继续训练。
模型发布三种规模:7B、13B和70B。
- 开发机构: 巴斯克大学HiTZ研究中心 & IXA研究组
- 模型类型: 语言模型
- 支持语言: 英语、巴斯克语
- 许可协议: llama2
- 基础模型: meta-llama/Llama-2-7b
- 联系方式: hitz@ehu.eus
快速开始
from transformers import pipeline
pipe = pipeline("text-generation", model="HiTZ/latxa-7b-v1.2")
text = "巴斯克语已进入人工智能时代!"
pipe(text, max_new_tokens=50, num_beams=5)
>> [
{
'generated_text': '巴斯克语已进入人工智能时代!\n巴斯克语与人工智能的联系由来已久,'
'但近年来该领域取得了重大进展'
}
]
使用场景
Latxa模型专为巴斯克语设计,其他语言性能不作保证。与原始模型相同,Latxa遵循LLaMA-2许可,允许商业和研究用途。
直接使用
Latxa是未经任务微调的预训练模型,可通过提示工程执行特定任务,或进一步微调以适应具体场景。
非适用场景
该模型未针对指令跟随或对话助手进行优化,此类用途未经测试且不推荐。
偏差、风险与局限
尽管训练数据主要来自本地媒体、报刊、百科全书和博客(参见Latxa-Corpus),并经过严格筛选,但基于LLaMA的模型仍可能继承原有偏见。详见LLaMA的《伦理考量与限制》。
训练详情
训练数据
训练语料整合多个现有数据集及新发布数据,优先质量而非数量,经过严格去重过滤。总训练token量达41.7亿,另从Pile随机选取50万英文文档以防止灾难性遗忘。
训练过程
使用GPT-Neox框架,在意大利CINECA HPC Leonardo超算集群(3456节点,每节点4×A100 64GB GPU)训练。配置如下:
- 训练步数: 10k
- 序列长度: 4096 token
- 有效批次大小: 200万token
- 总训练token: 200亿(约4轮epoch)
- 余弦学习率调度(500步预热,衰减至峰值3%)
- 峰值学习率: 1e-4
其他超参数遵循Touvron et al., 2023
评估
采用零样本和少样本设置评估生成、多选和分类任务,测试巴斯克语分区数据。
测试数据与指标
测试集
评估指标
多选任务采用准确率,BasqueGLUE任务采用:
- 微平均F1: 选举推文、新闻分类
- 宏平均F1: 疫苗立场检测(支持/反对)
结果
使用Eleuther AI的LM评估工具测试,完整复现方法见GitHub仓库。
模型 |
规模 |
XStory |
Belebele |
BasGLUE |
EusProf |
EusRead |
EusTrivia |
EusExams |
平均 |
随机基线 |
|
50.00 |
25.00 |
37.50 |
25.00 |
25.83 |
26.55 |
25.00 |
30.70 |
GPT 3.5 Turbo |
- |
-- |
57.33 |
48.62 |
31.24 |
36.65 |
46.71 |
42.42 |
-- |
GPT 4 Turbo |
- |
-- |
90.67 |
62.90 |
56.70 |
75.85 |
73.12 |
70.22 |
-- |
Latxa v1.1 |
7B |
65.45 |
37.33 |
52.56 |
30.26 |
25.00 |
42.16 |
33.82 |
40.94 |
Latxa v1.1 |
13B |
66.51 |
53.89 |
53.36 |
44.11 |
32.67 |
56.38 |
43.66 |
50.08 |
Latxa v1.1 |
70B |
70.55 |
71.67 |
59.74 |
60.65 |
50.57 |
62.45 |
51.90 |
61.08 |
环境影响
碳排放估算采用Lacoste等 (2019)的机器学习碳足迹计算器。
模型 |
规模 |
GPU小时数 |
碳排放量(kg CO2当量) |
Latxa v1.1 |
7B |
952.5h |
124.47kg |
Latxa v1.1 |
13B |
2,518.0h |
329.06kg |
Latxa v1.1 |
70B |
30,266.0h |
3,955.17kg |
总计 |
- |
33,636.5h |
4,408.7kg |
- 硬件类型: HPC集群(4×A100 64GB节点)
- 计算区域: 意大利
- 总碳排放: 4,408.7kg 二氧化碳当量
致谢
本研究获巴斯克政府(IKER-GAITU项目)及西班牙数字化部(EU-NextGenerationEU资助,项目编号2022/TL22/00215335。模型训练使用CINECA的Leonardo超算(EuroHPC联合项目EHPC-EXT-2023E01-013)。
引用
@misc{etxaniz2024latxa,
title={{L}atxa: 巴斯克语开放语言模型与评估套件},
author={Julen Etxaniz and Oscar Sainz and Naiara Perez and Itziar Aldabe and German Rigau and Eneko Agirre and Aitor Ormazabal and Mikel Artetxe and Aitor Soroa},
year={2024},
eprint={2403.20266},
archivePrefix={arXiv},
primaryClass={cs.CL}
}