许可证:apache-2.0
任务标签:文本生成
支持语言:
标签:
数据集:
Minerva-1B-base-v1.0 模型卡
Minerva是由Sapienza NLP与未来人工智能研究基金会(FAIR)及CINECA合作开发的首个完全基于意大利语预训练的大语言模型家族。该系列模型是真正开放的意英双语大模型,其中近半数预训练数据为意大利语文本。
模型描述
本卡片介绍的是Minerva-1B-base-v1.0——一个基于2000亿token(意大利语1000亿,英语1000亿)训练的10亿参数模型。
该模型属于Minerva大模型家族:
⚠️ 偏见、风险与局限性 ⚠️
本节阐述可预见的危害与误解
本模型为基础模型,未经对齐处理,可能:
- 过度代表某些观点而忽视其他
- 包含刻板印象
- 含有个人信息
- 生成:
- 仇恨、侮辱或暴力内容
- 歧视性或偏见性语言
- 不适于所有场景的内容(包括色情内容)
- 产生事实性错误
- 输出无关或重复内容
我们注意到当前预训练大语言模型存在的偏见:作为概率语言模型(意大利语/英语),它们会反映并放大训练数据中的偏见。详见我们的研究:
使用指南(Hugging Face transformers)
import transformers
import torch
model_id = "sapienzanlp/Minerva-1B-base-v1.0"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
input_text = "意大利的首都是"
output = pipeline(
input_text,
max_new_tokens=128,
)
模型架构
Minerva-1B-base-v1.0是基于Mistral架构的Transformer模型,通过调整层数、注意力头数和隐藏层维度达到10亿参数规模。具体超参数配置请参阅模型配置文件。
Minerva家族模型规格:
模型名称 |
训练token数 |
层数 |
隐藏层维度 |
注意力头数 |
KV头数 |
滑动窗口 |
最大上下文长度 |
Minerva-350M-base-v1.0 |
700亿(350亿意+350亿英) |
16 |
1152 |
16 |
4 |
2048 |
16384 |
Minerva-1B-base-v1.0 |
2000亿(1000亿意+1000亿英) |
16 |
2048 |
16 |
4 |
2048 |
16384 |
Minerva-3B-base-v1.0 |
6600亿(3300亿意+3300亿英) |
32 |
2560 |
32 |
8 |
2048 |
16384 |
训练详情
使用MosaicML的llm-foundry 0.6.0训练,关键超参数:
模型名称 |
优化器 |
学习率 |
betas |
eps |
权重衰减 |
调度器 |
预热步数 |
批次大小(token) |
总步数 |
Minerva-350M-base-v1.0 |
Decoupled AdamW |
2e-4 |
(0.9, 0.95) |
1e-8 |
0.0 |
Cosine |
2% |
400万 |
16,690 |
Minerva-1B-base-v1.0 |
Decoupled AdamW |
2e-4 |
(0.9, 0.95) |
1e-8 |
0.0 |
Cosine |
2% |
400万 |
47,684 |
Minerva-3B-base-v1.0 |
Decoupled AdamW |
2e-4 |
(0.9, 0.95) |
1e-8 |
0.0 |
Cosine |
2% |
400万 |
157,357 |
模型评估
使用LM-Evaluation-Harness进行多任务评估,基准数据均来自该测试套件。
意大利语表现:
英语表现:
训练数据
Minerva-1B-base-v1.0使用来自CulturaX的1000亿意大利语token和1000亿英语token训练,数据来源包括:
- OSCAR-2201
- OSCAR-2301
- mC4
意大利语(1150亿token)与英语(2100亿token)数据领域分布:
意大利语token领域占比

英语token领域占比

分词器效率
分词器效率指每个分词后单词平均产生的token数。某种语言的高效率值通常意味着该语言的分词更细粒度,这将直接影响模型在该语言上的推理速度——效率值越高,生成的token序列越长,推理速度越慢。
基于CulturaX(CX)和维基百科(Wp)样本的计算结果:
模型 |
词表大小 |
意大利语效率(CX) |
英语效率(CX) |
意大利语效率(Wp) |
英语效率(Wp) |
Mistral-7B-v0.1 |
32000 |
1.87 |
1.32 |
2.05 |
1.57 |
gemma-7b |
256000 |
1.42 |
1.18 |
1.56 |
1.34 |
Minerva-1B-base-v1.0 |
32768 |
1.39 |
1.32 |
1.66 |
1.59 |
注意事项
Minerva-350M-base-v1.0是预训练基础模型,未包含内容过滤机制。
Sapienza NLP团队
- Riccardo Orlando:数据预处理、模型训练
- Pere-Lluis Huguet Cabot:数据预处理、词表构建、评估
- Luca Moroni:数据清洗、数据分析、下游任务、评估
- Simone Conia:数据清洗、评估、项目监督
- Edoardo Barba:数据预处理、下游任务、项目监督
- Roberto Navigli:项目领导与协调
特别致谢
- Giuseppe Fiameni, Nvidia
- Sergio Orlandini, CINECA
资助声明
本研究由PNRR MUR项目PE0000013-FAIR资助,并感谢CINECA在ISCRA计划下提供的"lscB_medit"高性能计算资源支持。