库名称: transformers # 指定库
数据集:
- HiTZ/latxa-corpus-v1.1
语言:
- 巴斯克语
- 英语
评估指标:
- 准确率
流水线标签: 文本生成
模型索引:
- 名称: Latxa-Llama-3.1-70B-Instruct
结果:
- 任务:
类型: 多项选择
数据集:
名称: xstory_cloze
类型: XStory
指标:
- 名称: 准确率 (5样本)
类型: 准确率 (5样本)
值: 77.83
- 任务:
类型: 多项选择
数据集:
名称: belebele
类型: Belebele
指标:
- 名称: 准确率 (5样本)
类型: 准确率 (5样本)
值: 91.00
- 任务:
类型: 多项选择
数据集:
名称: eus_proficiency
类型: EusProficiency
指标:
- 名称: 准确率 (5样本)
类型: 准确率 (5样本)
值: 68.00
- 任务:
类型: 多项选择
数据集:
名称: eus_reading
类型: EusReading
指标:
- 名称: 准确率 (5样本)
类型: 准确率 (5样本)
值: 78.98
- 任务:
类型: 多项选择
数据集:
名称: eus_trivia
类型: EusTrivia
指标:
- 名称: 准确率 (5样本)
类型: 准确率 (5样本)
值: 74.17
- 任务:
类型: 多项选择
数据集:
名称: eus_exams
类型: EusExams
指标:
- 名称: 准确率 (5样本)
类型: 准确率 (5样本)
值: 71.56
许可证: llama3.1
基础模型:
- meta-llama/Llama-3.1-70B-Instruct
二氧化碳当量排放:
排放量: 1900800
来源: "CodeCarbon"
训练类型: "预训练"
地理位置: "欧盟西部"
使用硬件: "256块A100 GPU"
HiTZ/Latxa-Llama-3.1-70B-Instruct模型卡
我们推出Latxa 3.1 70B Instruct版本,这是Latxa的指令调优版。新版Latxa基于Llama-3.1 (Instruct),使用语言适应技术(论文准备中)在我们的巴斯克语语料库(Etxaniz等,2024)上训练,包含430万文档和42亿词元。
[!警告]
免责声明
本模型仍在开发中。
详细训练信息将随研究论文在近期发布。
初步实验表明,Latxa 3.1 70B Instruct在巴斯克标准基准测试上大幅超越Llama-3.1-Instruct,尤其在对话场景。我们还组织了公开竞技场评估,Latxa与GPT-4o和Claude Sonnet等基线及专有模型竞争,结果显示Latxa位列第三,仅次于Claude和GPT-4,优于同规模竞品。正式论文即将发布。
模型详情
模型描述
Latxa是基于Meta LLaMA模型系列的大语言模型(LLM)。当前LLM在英语等高资源语言表现卓越,但对巴斯克语等低资源语言接近随机猜测。这些限制加剧了数字发展中高低资源语言间的差距。我们推出Latxa以突破限制,促进巴斯克语LLM技术与研究发展。Latxa模型保持原架构,并在高质量巴斯克语料库Latxa Corpus v1.1上继续训练。
- 开发团队: HiTZ研究中心 & IXA研究组(巴斯克大学UPV/EHU)
- 模型类型: 语言模型
- 支持语言: 巴斯克语
- 许可证: llama3.1
- 父模型: meta-llama/Llama-3.1-70B-Instruct
- 联系方式: hitz@ehu.eus
快速开始
使用以下代码启动模型:
from transformers import pipeline
pipe = pipeline('text-generation', model='HiTZ/Latxa-Llama-3.1-70B-Instruct')
messages = [
{'role': 'user', 'content': '你好!'},
]
pipe(messages)
>>
[
{
'generated_text': [
{'role': 'user', 'content': '你好!'},
{'role': 'assistant', 'content': '你好!最近怎么样?有什么需要或想问的吗?'}
]
}
]
用途
Latxa模型专为巴斯克语设计,其他语言性能不保证。与原模型相同,Latxa遵循Llama-3.1许可证,允许商业和研究使用。
直接使用
Latxa Instruct模型训练用于遵循指令或作为聊天助手。
非适用场景
禁止用于恶意活动,如伤害他人或侵犯人权。下游应用须遵守现行法律法规。不鼓励未经风险评估的生产环境不负责任使用。
偏见、风险与限制
为减少潜在有害内容,Latxa训练数据精选自本地媒体、报刊、百科全书和博客(见Latxa Corpus v1.1)。但模型基于Llama 3.1,可能继承相同偏见与限制。详见Llama伦理考量说明。
训练详情
[!警告]
免责声明
详细训练信息将随研究论文在近期发布。
评估
我们在5样本设置下评估多项选择任务,使用各数据集的巴斯克语部分。竞技场结果将后续发布。
测试数据、因素与指标
测试数据
- Belebele (Bandarkar等): 涵盖122种语言的机器阅读理解数据集,5样本评估。
- 数据卡: https://huggingface.co/datasets/facebook/belebele
- X-StoryCloze (Lin等): 专业翻译的英语故事补全数据集,含10种非英语语言,5样本评估。
- 数据卡: https://huggingface.co/datasets/juletxara/xstory_cloze
- EusProficiency (Etxaniz等,2024): 含5,169道巴斯克C1水平考试练习题。
- 数据卡: https://huggingface.co/datasets/HiTZ/EusProficiency
- EusReading (Etxaniz等,2024): 352篇巴斯克阅读理解练习,源自历史考试。
- 数据卡: https://huggingface.co/datasets/HiTZ/EusReading
- EusTrivia (Etxaniz等,2024): 1,715道巴斯克知识问答,56.3%为小学难度。
- 数据卡: https://huggingface.co/datasets/HiTZ/EusTrivia
- EusExams (Etxaniz等,2024): 巴斯克公共机构考试准备题库。
- 数据卡: https://huggingface.co/datasets/HiTZ/EusExams
指标
采用准确率评估,因任务为多项选择形式。
结果
任务 |
Llama-3.1 8B Instruct |
Latxa 3.1 8B Instruct |
Llama-3.1 70B Instruct |
Latxa 3.1 70B Instruct |
Belebele |
73.89 |
80.00 |
89.11 |
91.00 |
X-Story Cloze |
61.22 |
71.34 |
69.69 |
77.83 |
EusProficiency |
34.13 |
52.83 |
43.59 |
68.00 |
EusReading |
49.72 |
62.78 |
72.16 |
78.98 |
EusTrivia |
45.01 |
61.05 |
62.51 |
74.17 |
EusExams |
46.21 |
56.00 |
63.28 |
71.56 |
环境影响
碳排放估算使用Lacoste等(2019)提出的机器学习影响计算器。
- 硬件类型: HPC集群,4节点×64块A100 64GB GPU
- 总GPU时数: 16005.12小时
- 云服务商: CINECA HPC
- 计算区域: 意大利
- 碳排放量: 1901.41千克CO2当量
致谢
本研究获巴斯克政府(IKER-GAITU项目)部分支持,并由西班牙数字化转型与公共职能部通过EU-NextGenerationEU基金(项目编号2022/TL22/00215335)资助。模型在CINECA的Leonardo超算上训练,受EuroHPC联合项目EHPC-EXT-2023E01-013支持。
引用
即将发布。暂可参考:
@misc{etxaniz2024latxa,
title={{L}atxa: 巴斯克语开源语言模型与评估套件},
author={Julen Etxaniz等},
year={2024},
eprint={2403.20266},
archivePrefix={arXiv},
primaryClass={cs.CL}
}