许可证:Apache-2.0
支持语言:
- 英语
- 德语
- 西班牙语
- 法语
- 意大利语
- 葡萄牙语
- 波兰语
- 荷兰语
- 土耳其语
- 瑞典语
- 捷克语
- 希腊语
- 匈牙利语
- 罗马尼亚语
- 芬兰语
- 乌克兰语
- 斯洛文尼亚语
- 斯洛伐克语
- 丹麦语
- 立陶宛语
- 拉脱维亚语
- 爱沙尼亚语
- 保加利亚语
- 挪威语
- 加泰罗尼亚语
- 克罗地亚语
- 爱尔兰语
- 马耳他语
- 加利西亚语
- 中文
- 俄语
- 韩语
- 日语
- 阿拉伯语
- 印地语
库名称:transformers
基础模型:
- utter-project/EuroLLM-9B
EuroLLM-9B-Instruct模型卡
这是EuroLLM-9B-Instruct的模型卡。您也可以查看预训练版本:EuroLLM-9B。
- 开发团队: Unbabel、里斯本高等理工学院、电信研究所、爱丁堡大学、Aveni、巴黎萨克雷大学、阿姆斯特丹大学、Naver Labs、索邦大学。
- 资助方: 欧盟。
- 模型类型: 90亿参数的多语言Transformer大语言模型。
- 支持语言(NLP): 保加利亚语、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、德语、希腊语、匈牙利语、爱尔兰语、意大利语、拉脱维亚语、立陶宛语、马耳他语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、瑞典语、阿拉伯语、加泰罗尼亚语、中文、加利西亚语、印地语、日语、韩语、挪威语、俄语、土耳其语和乌克兰语。
- 许可证: Apache 2.0许可证。
模型详情
EuroLLM项目旨在创建一套能够理解和生成所有欧盟语言及其他相关语言文本的大语言模型。
EuroLLM-9B是一个90亿参数的模型,训练数据涵盖4万亿token,涉及多种语言和数据来源:网络数据、平行语料(英-XX和XX-英)以及高质量数据集。
EuroLLM-9B-Instruct进一步在EuroBlocks上进行了指令微调,该数据集专注于通用指令跟随和机器翻译任务。
模型架构
EuroLLM采用标准的密集Transformer架构:
- 使用8个键值头的分组查询注意力(GQA),以提高推理速度同时保持下游性能。
- 采用预层归一化(pre-layer norm)提升训练稳定性,并使用更快的RMSNorm。
- 使用SwiGLU激活函数,因其在下游任务中表现优异。
- 每层均配备旋转位置嵌入(RoPE),支持扩展上下文长度且性能良好。
预训练使用400块NVIDIA H100 GPU(Marenostrum 5超算),恒定批次大小为2,800个序列(约1200万token),采用Adam优化器和BF16精度。
模型超参数摘要:
参数项 |
值 |
序列长度 |
4,096 |
层数 |
42 |
嵌入维度 |
4,096 |
FFN隐藏层大小 |
12,288 |
注意力头数 |
32 |
键值头数(GQA) |
8 |
激活函数 |
SwiGLU |
位置编码 |
RoPE(Θ=10,000) |
层归一化 |
RMSNorm |
绑定嵌入 |
否 |
嵌入参数量 |
0.524B |
语言模型头参数量 |
0.524B |
非嵌入参数量 |
8.105B |
总参数量 |
9.154B |
运行模型
from transformers import AutoModelForCausalLM, AutoTokenizer
model_id = "utter-project/EuroLLM-9B-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(model_id)
messages = [
{"role": "system", "content": "您是EuroLLM——专注于欧洲语言的AI助手,提供安全、教育性和有帮助的回答。"},
{"role": "user", "content": "葡萄牙的首都是哪里?如何描述它?"}
]
inputs = tokenizer.apply_chat_template(messages, tokenize=True, add_generation_prompt=True, return_tensors="pt")
outputs = model.generate(inputs, max_new_tokens=1024)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
性能表现
欧盟语言

表1: 开源大语言模型在多语言基准测试中的对比。Borda计数对应模型平均排名(参见Colombo等, 2022)。Arc-challenge、Hellaswag和MMLU使用Okapi数据集(Lai等, 2023)涵盖11种语言;MMLU-Pro和MUSR通过Tower(Alves等, 2024)将英文测试翻译为6种欧盟语言。
* 由于无预训练模型公开版本,评估基于微调后版本。
表1显示,EuroLLM-9B在多语言任务上优于其他欧洲开发模型(Borda计数1.0),并与Gemma-2-9B等非欧洲模型表现相当,在多数基准测试中领先。
英语

表2: 开源大语言模型在英语通用基准测试中的对比。
* 同表1说明。
表2表明,EuroLLM在英语任务上表现强劲,超越多数欧洲开发模型,与Mistral-7B性能相当(Borda计数相同)。
偏见、风险与限制
EuroLLM-9B未经过人类偏好对齐,可能生成问题输出(如幻觉、有害内容或错误陈述)。