库名称: transformers # 指定库
数据集:
- HiTZ/latxa-corpus-v1.1
语言:
- 巴斯克语
- 英语
评估指标:
- 准确率
流水线标签: 文本生成
模型索引:
- 名称: Latxa-Llama-3.1-70B-Instruct-FP8
结果:
- 任务:
类型: 多项选择
数据集:
名称: xstory_cloze
类型: XStory
指标:
- 名称: 准确率 (5样本)
类型: 准确率 (5样本)
值: 77.83
- 任务:
类型: 多项选择
数据集:
名称: belebele
类型: Belebele
指标:
- 名称: 准确率 (5样本)
类型: 准确率 (5样本)
值: 91.00
- 任务:
类型: 多项选择
数据集:
名称: eus_proficiency
类型: EusProficiency
指标:
- 名称: 准确率 (5样本)
类型: 准确率 (5样本)
值: 68.00
- 任务:
类型: 多项选择
数据集:
名称: eus_reading
类型: EusReading
指标:
- 名称: 准确率 (5样本)
类型: 准确率 (5样本)
值: 78.98
- 任务:
类型: 多项选择
数据集:
名称: eus_trivia
类型: EusTrivia
指标:
- 名称: 准确率 (5样本)
类型: 准确率 (5样本)
值: 74.17
- 任务:
类型: 多项选择
数据集:
名称: eus_exams
类型: EusExams
指标:
- 名称: 准确率 (5样本)
类型: 准确率 (5样本)
值: 71.56
许可证: llama3.1
基础模型:
- HiTZ/Latxa-Llama-3.1-70B-Instruct
二氧化碳当量排放:
排放量: 1900800
来源: "CodeCarbon"
训练类型: "预训练"
地理位置: "欧盟西部"
硬件使用: "256块A100 GPU"
量化者: HiTZ
HiTZ/Latxa-Llama-3.1-70B-Instruct-FP8 模型卡
[!重要]
这是原始Latxa 3.1 70B Instruct模型的FP8量化版本。
我们推出了Latxa 3.1 70B Instruct,这是Latxa的指令调优版本。新版Latxa基于Llama-3.1 (Instruct),我们在包含430万文档和42亿标记的巴斯克语语料库(Etxaniz等,2024)上使用语言适应技术进行了训练(论文准备中)。
[!警告]
免责声明
本模型仍在开发中。
更多训练细节将在近期随研究论文一同发布。
初步实验表明,Latxa 3.1 70B Instruct在巴斯克标准基准测试上大幅领先Llama-3.1-Instruct,尤其在对话场景表现突出。此外,我们组织了公开竞技场评估,Latxa与包括GPT-4o和Claude Sonnet在内的基线模型及专有模型同台竞技。结果显示Latxa位列第三,仅次于Claude和GPT-4,超越所有同规模竞争对手。
官方论文即将发布。
模型详情
模型描述
Latxa是基于Meta LLaMA模型系列的大语言模型(LLM)。当前LLM在英语等高资源语言中表现惊艳,但对巴斯克语等低资源语言的性能接近随机猜测。这些限制加剧了高/低资源语言在数字化发展中的差距。我们推出Latxa以突破这些限制,推动巴斯克语LLM技术与研究发展。Latxa模型保持原始架构,并在高质量巴斯克语料库Latxa Corpus v1.1上进行了继续训练。
- 开发机构: HiTZ研究中心 & IXA研究组(巴斯克大学UPV/EHU)
- 模型类型: 语言模型
- 支持语言(NLP): 巴斯克语
- 许可证: llama3.1
- 父模型: meta-llama/Llama-3.1-70B-Instruct
- 联系方式: hitz@ehu.eus
快速开始
使用以下代码快速体验模型。
from transformers import pipeline
pipe = pipeline('text-generation', model='HiTZ/Latxa-Llama-3.1-70B-Instruct-FP8')
messages = [
{'role': 'user', 'content': '你好!'},
]
pipe(messages)
>>
[
{
'generated_text': [
{'role': 'user', 'content': '你好!'},
{'role': '助手', 'content': '你好! 最近怎么样? 有什么需要或想问的吗?'}
]
}
]
用途
Latxa模型专为巴斯克语数据设计,其他语言性能不作保证。
与原始模型相同,Latxa遵循Llama-3.1许可证,允许商业和研究用途。
直接使用
Latxa Instruct模型训练用于遵循指令或作为聊天助手。
非适用场景
本模型不应用于恶意活动,如伤害他人或侵犯人权。任何下游应用必须遵守现行法律法规。
未经适当风险评估和缓解措施即在生产环境中不负责任地使用亦不被鼓励。
偏见、风险与限制
为减少潜在不良或有害内容,Latxa训练数据经过精心筛选和处理,主要来自本地媒体、国家/地区报纸、百科全书和博客(参见Latxa Corpus v1.1)。但模型基于Llama 3.1,可能携带相同偏见、风险和限制。
更多信息请参阅Llama的伦理考量与限制说明。
训练详情
[!警告]
免责声明
更多训练细节将在近期随研究论文一同发布。
评估
我们在5样本设置下评估模型的多项选择任务表现。使用各数据集的巴斯克语分区。
竞技场结果将在未来公布。
测试数据、因素与指标
测试数据
- Belebele (Bandarkar等): 涵盖122种语言变体的多项选择机器阅读理解数据集。我们以5样本方式评估模型。
- 数据卡: https://huggingface.co/datasets/facebook/belebele
- X-StoryCloze (Lin等): 由专业翻译的英文StoryCloze数据集,包含10种非英语语言。StoryCloze是通过四句话故事选择正确结尾的常识推理数据集。我们以5样本方式评估模型。
- 数据卡: https://huggingface.co/datasets/juletxara/xstory_cloze
- EusProficiency (Etxaniz等,2024): 包含5,169道来自巴斯克C1水平官方证书EGA考试的各类题型。
- 数据卡: https://huggingface.co/datasets/HiTZ/EusProficiency
- EusReading (Etxaniz等,2024): 包含352篇来自EGA考试的阅读理解练习(irakurmena)。
- 数据卡: https://huggingface.co/datasets/HiTZ/EusReading
- EusTrivia (Etxaniz等,2024): 包含1,715道来自多个在线资源的常识问答。56.3%为小学水平(3-6年级),其余为挑战级。
- 数据卡: https://huggingface.co/datasets/HiTZ/EusTrivia
- EusExams (Etxaniz等,2024): 为巴斯克地区多个机构(包括公共卫生系统Osakidetza、巴斯克政府、毕尔巴鄂和维多利亚市议会及巴斯克大学)公务员考试准备的测试合集。
- 数据卡: https://huggingface.co/datasets/HiTZ/EusExams
指标
我们使用准确率,因为任务框架为多项选择题。
结果
任务 |
Llama-3.1 8B Instruct |
Latxa 3.1 8B Instruct |
Llama-3.1 70B Instruct |
Latxa 3.1 70B Instruct |
Belebele |
73.89 |
80.00 |
89.11 |
91.00 |
X-Story Cloze |
61.22 |
71.34 |
69.69 |
77.83 |
EusProficiency |
34.13 |
52.83 |
43.59 |
68.00 |
EusReading |
49.72 |
62.78 |
72.16 |
78.98 |
EusTrivia |
45.01 |
61.05 |
62.51 |
74.17 |
EusExams |
46.21 |
56.00 |
63.28 |
71.56 |
环境影响
碳排放量可使用Lacoste等(2019)提出的机器学习影响计算器估算。
- 硬件类型: HPC集群,4节点×64块A100 64GB
- 总使用时长(GPU小时): 16,005.12小时
- 云服务商: CINECA HPC
- 计算区域: 意大利
- 碳排放量: 1,901.41千克CO2当量
致谢
本研究部分由巴斯克政府(IKER-GAITU项目)支持。
也部分获得西班牙数字化与公共职能部资助(项目编号2022/TL22/00215335),资金来自欧盟NextGenerationEU计划。
模型在CINECA的Leonardo超级计算机上训练,受EuroHPC联合项目EHPC-EXT-2023E01-013支持。
引用
即将发布。
目前可参考:
@misc{etxaniz2024latxa,
title={{L}atxa: 面向巴斯克语的开源语言模型与评估套件},
author={Julen Etxaniz and Oscar Sainz and Naiara Perez and Itziar Aldabe and German Rigau and Eneko Agirre and Aitor Ormazabal and Mikel Artetxe and Aitor Soroa},
year={2024},
eprint={2403.20266},
archivePrefix={arXiv},
primaryClass={cs.CL}
}