Latxa-7b-v1.2开源大语言模型 - 支持巴斯克语对话，低资源语言优选

首页

Latxa 7b V1.2

由 HiTZ 开发

Latxa是基于LLaMA-2架构的巴斯克语大语言模型，专为低资源语言设计，在42亿token的巴斯克语料库上训练

大型语言模型

Transformers

支持多种语言#巴斯克语优化 #低资源语言模型 #多任务评估套件

下载量 875

发布时间 : 6/11/2024

模型简介

Latxa系列模型包含7B至70B参数规模，针对巴斯克语优化，在语言理解和生成任务上表现优异，支持英语和巴斯克语

模型特点

低资源语言优化

专门针对巴斯克语等低资源语言设计，填补高低资源语言间的技术鸿沟

高质量语料训练

使用严格筛选的42亿token巴斯克语料库训练，确保语言质量

多规模可选

提供7B、13B和70B三种参数规模，满足不同计算需求

开放许可

遵循LLaMA-2许可协议，允许商业和研究用途

模型能力

巴斯克语文本生成

多选问答

阅读理解

语言理解

英语文本生成（辅助能力）

使用案例

教育

语言能力测试

用于评估巴斯克语C1水平考试题

在EusProficiency数据集上达到30.26%准确率（5样本）

阅读理解辅助

帮助学生理解巴斯克语文章内容

在EusReading数据集上达到25%准确率（5样本）

研究

低资源语言研究

为巴斯克语等低资源语言的大模型研究提供基准

发布完整工具链包括模型、语料库和评估数据集

🚀 Latxa 7b大语言模型

Latxa是一系列面向巴斯克语的大语言模型，参数范围从70亿到700亿。它基于Llama 2，在新的巴斯克语语料库上继续预训练。在评估中，Latxa大幅超越之前的开源模型，在语言能力和理解方面可与GPT - 4 Turbo竞争。模型、预训练语料库和评估数据集都在开源许可下公开，便于低资源语言大语言模型的研究。

🚀 快速开始

使用以下代码开始使用该模型：

from transformers import pipeline

pipe = pipeline("text-generation", model="HiTZ/latxa-7b-v1.2")

text = "Euskara adimen artifizialera iritsi da!"

pipe(text, max_new_tokens=50, num_beams=5)

>> [
 {
  'generated_text': 'Euskara adimen artifizialera iritsi da!\nEuskararen eta adimen artifizialaren arteko harremana aspaldikoa da,'
  ' baina azken urteotan aurrerapauso handiak eman dira arlo horretan'
 }
]

✨ 主要特性

面向巴斯克语：专门为巴斯克语设计，基于Llama 2在新的巴斯克语语料库上继续预训练，提升了对巴斯克语的处理能力。
性能优越：在评估中大幅超越之前的开源模型，在语言能力和理解方面可与GPT - 4 Turbo竞争。
开源可用：模型、预训练语料库和评估数据集都在开源许可下公开，便于低资源语言大语言模型的研究。

📦 安装指南

文档未提及具体安装步骤，暂无法提供。

📚 详细文档

模型详情

模型描述

Latxa是基于Meta的[LLaMA模型](https://huggingface.co/meta - llama)的大语言模型家族。当前的大语言模型在英语等资源丰富的语言上表现出色，但在巴斯克语等低资源语言上表现不佳。为克服这些限制，促进基于大语言模型的巴斯克语技术和研究发展，推出了Latxa。它采用与原模型相同的架构，在[Latxa语料库v1.1](https://huggingface.co/datasets/HiTZ/latxa - corpus - v1.1)上进一步训练。模型有7B、13B和70B三种规模。

开发者：HiTZ研究中心和IXA研究小组（巴斯克大学UPV/EHU）
模型类型：语言模型
语言：英语、巴斯克语
许可证：llama2
父模型：meta - llama/Llama - 2 - 7b
联系方式：hitz@ehu.eus

使用说明

直接使用

Latxa系列模型是预训练的大语言模型，未进行特定任务或指令微调。可以通过提示执行特定任务，也可进一步微调用于特定用例。

超出适用范围的使用

模型未针对遵循指令或作为聊天助手进行微调，不建议此类使用。

偏差、风险和限制

为减少潜在的不良或有害内容，Latxa在精心选择和处理的数据上训练，数据主要来自当地媒体、国家/地区报纸、百科全书和博客。但模型基于LLaMA模型，可能存在相同的偏差、风险和限制。更多信息请参阅LLaMA的《道德考量和限制》。

训练详情

训练数据

训练语料库结合了各种现有数据集和新发布的数据集。构建语料库时优先考虑质量，采用高质量数据源，并进行了彻底的去重和过滤。总共使用了41.7亿个标记的语料库进行训练。更多细节见[Latxa语料库](https://huggingface.co/datasets/HiTZ/latxa - corpus - v1.1)数据集卡片。此外，还随机选取了Pile数据集中的50万份英语文档，以避免灾难性遗忘。

训练过程

使用[GPT - Neox](https://github.com/EleutherAI/gpt - neox)库进行训练。利用位于意大利的CINECA HPC Leonardo计算集群，该集群有3456个节点，每个节点包含4个定制的A100 64Gb GPU。模型训练了10000步，序列长度为4096个标记，有效批量大小为200万个标记，总共使用了200亿个标记（约4个周期）。使用余弦学习率调度，热身500步，衰减到峰值学习率的3%，峰值学习率设为1e - 4。其他超参数遵循(Touvron et al., 2023)。

评估

在零样本和少样本设置下，对生成、多项选择和分类任务进行评估，使用每个数据集的巴斯克语分区。

测试数据、因素和指标

测试数据

Belebele (Bandarkar et al.)：一个涵盖122种语言变体的多项选择机器阅读理解（MRC）数据集，以5次射击的方式评估模型。数据卡片
X - StoryCloze (Lin et al.)：由英语StoryCloze数据集专业翻译为10种非英语语言的版本，是一个常识推理数据集，以零次射击的方式评估模型。数据卡片
BasqueGLUE ([Urbizu et al.](https://aclanthology.org/2022.lrec - 1.172.pdf))：巴斯克语的NLU基准，在以下任务上以5次射击的方式评估模型：[数据卡片](https://huggingface.co/datasets/orai - nlp/basqueGLUE)
- BEC2016eu：关于2016年巴斯克选举活动推文的情感分析。
- VaxxStance：关于反疫苗运动推文的立场检测。
- BTHCv2：新闻摘录的主题分类，有12个类别。
- EpecKorrefBin：类似于WSC的指代检测任务。
- QNLIeu：基于巴斯克语维基百科构建的问答NLI。
- WiCeu：巴斯克语的上下文单词任务。
EusProficiency (Etxaniz et al., 2024)：包含5169个来自过去EGA考试的不同主题练习，是巴斯克语官方C1级能力证书考试。数据卡片
EusReading (Etxaniz et al., 2024)：包含352个阅读理解练习，来自同一组过去的EGA考试。数据卡片
EusTrivia (Etxaniz et al., 2024)：包含1715个来自多个在线来源的琐事问题，56.3%的问题是小学水平（3 - 6年级），其余被认为具有挑战性。数据卡片
EusExams (Etxaniz et al., 2024)：是为巴斯克几个机构的公共服务考试准备的测试集合，包括公共卫生系统Osakidetza、巴斯克政府、毕尔巴鄂和加斯泰兹市议会以及巴斯克大学（UPV/EHU）。数据卡片

指标

大多数任务使用准确率，因为它们是多项选择题。对于其他任务，特别是BasqueGLUE基准的任务，使用以下指标：

微观F1：BEC2016 - eu和BHTCv2
宏观F1：VaxxStance（支持和反对）

评估结果

使用Eleuther AI的LM评估工具库评估模型。要重现结果，请遵循Latxa的[Github仓库](https://github.com/hitz - zentroa/latxa?tab=readme - ov - file#evaluation)中的说明。

模型	规模	XStory	Belebele	BasGLUE	EusProf	EusRead	EusTrivia	EusExams	平均
随机		50.00	25.00	37.50	25.00	25.83	26.55	25.00	30.70
GPT 3.5 Turbo	n/a	--	57.33	48.62	31.24	36.65	46.71	42.42	--
GPT 4 Turbo	n/a	--	90.67	62.90	56.70	75.85	73.12	70.22	--
XGLM	7B	57.71	23.88	41.47	22.96	24.43	26.53	24.59	32.51
BLOOM	7B	57.18	27.00	40.17	25.34	28.41	27.17	25.07	33.86
Mistral	7B	51.09	38.89	39.22	25.01	29.26	34.58	32.15	35.94
Llama 2	7B	50.43	26.22	38.20	24.09	27.27	29.50	28.84	32.51
Latxa v1.1	7B	65.45	37.33	52.56	30.26	25.00	42.16	33.82	40.94
mGPT	13B	55.39	25.00	37.56	25.00	24.15	27.17	25.73	32.14
Llama 2	13B	50.63	32.00	38.98	25.90	28.98	33.53	29.66	34.36
Latxa v1.1	13B	66.51	53.89	53.36	44.11	32.67	56.38	43.66	50.08
Mixtral	8x7B	52.55	50.44	45.00	26.43	37.50	42.51	39.87	41.97
Yi	34B	52.22	54.56	43.90	27.30	34.66	42.57	39.68	42.05
Llama 2	70B	51.62	33.56	42.55	24.16	27.84	38.43	33.08	35.47
Latxa v1.1	70B	70.55	71.67	59.74	60.65	50.57	62.45	51.90	61.08

环境影响

使用机器学习影响计算器估算碳排放。

模型	规模	时间（GPU小时）	碳排放（kg CO₂当量）
Latxa v1.1	7B	952.5h	124.47kg
Latxa v1.1	13B	2,518.0h	329.06kg
Latxa v1.1	70B	30,266.0h	3,955.17kg
总计	-	33,636.5h	4,408.7kg

硬件类型：HPC集群，4x A100 64Gb节点
使用时间：33,636.5h
计算集群：CINECA HPC
计算区域：意大利
碳排放：4,408.7kg CO₂当量

致谢

这项工作得到了巴斯克政府（IKER - GAITU项目）的部分支持，也得到了数字转型和公共职能部的部分支持（由欧盟 - 下一代欧盟资助，项目编号2022/TL22/00215335）。模型在CINECA的Leonardo超级计算机上训练，属于EuroHPC联合项目，项目编号EHPC - EXT - 2023E01 - 013。

引用

如需引用我们的工作，请使用以下格式：

@misc{etxaniz2024latxa,
      title={{L}atxa: An Open Language Model and Evaluation Suite for {B}asque}, 
      author={Julen Etxaniz and Oscar Sainz and Naiara Perez and Itziar Aldabe and German Rigau and Eneko Agirre and Aitor Ormazabal and Mikel Artetxe and Aitor Soroa},
      year={2024},
      eprint={2403.20266},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}