Minerva-1B-base-v1.0开源意英双语大语言模型 - 免费部署可支持双语交流

首页

Minerva 1B Base V1.0

由 sapienzanlp 开发

Minerva-1B-base-v1.0是由Sapienza NLP与FAIR及CINECA合作开发的10亿参数意英双语大语言模型，基于2000亿token（各1000亿意/英）训练

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #意英双语生成 #预训练基础模型 #高语境窗口

下载量 551

发布时间 : 4/19/2024

模型简介

首个完全基于意大利语预训练的大语言模型家族成员，真正开放的意英双语基础模型，未经过对齐处理

模型特点

双语平衡训练

采用1000亿意大利语token和1000亿英语token的平衡训练数据

高效分词器

意大利语分词效率1.39（CulturaX测试），优于同类模型

长上下文支持

支持最大16384 tokens的上下文长度

模型能力

意大利语文本生成

英语文本生成

多任务处理

使用案例

教育

意大利语学习辅助

生成意大利语学习材料和练习题

内容创作

双语内容生成

自动生成意英双语的文章或营销内容

🚀 Minerva-1B-base-v1.0模型卡片

Minerva是由Sapienza NLP与未来人工智能研究（FAIR）和CINECA合作开发的首个完全基于意大利语预训练的大语言模型（LLMs）系列。值得注意的是，Minerva模型是真正开放（数据和模型）的意大利语 - 英语大语言模型，大约一半的预训练数据包含意大利语文本。

Minerva大语言模型 - 官网

🚀 快速开始

使用Hugging Face Transformers调用Minerva模型

import transformers
import torch

model_id = "sapienzanlp/Minerva-1B-base-v1.0"

# 初始化管道。
pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

# 模型输入文本。
input_text = "La capitale dell'Italia è"

# 计算输出。
output = pipeline(
  input_text,
  max_new_tokens=128,
)

# 输出:
# [{'generated_text': "La capitale dell'Italia è la città di Roma, che si trova a [...]"}]

✨ 主要特性

Minerva是首个完全基于意大利语从头开始预训练的大语言模型系列。
该模型是真正开放（数据和模型）的意大利语 - 英语大语言模型，约一半预训练数据包含意大利语文本。

📚 详细文档

模型描述

这是Minerva-1B-base-v1.0的模型卡片，该模型拥有10亿参数，在2000亿个标记（1000亿意大利语标记和1000亿英语标记）上进行训练。

该模型是Minerva大语言模型系列的一部分：

🚨⚠️🚨 偏差、风险和局限性 🚨⚠️🚨

此部分识别可预见的危害和误解。

这是一个基础模型，未经过对齐处理。模型可能存在以下问题：

过度代表某些观点，而忽视其他观点。
包含刻板印象。
包含个人信息。
生成以下内容：
- 仇恨性、辱骂性或暴力性语言。
- 歧视性或偏见性语言。
- 可能不适用于所有场景的内容，包括色情内容。
产生错误，包括将不正确的信息当作事实输出。
生成无关或重复的输出。

我们意识到当前预训练大语言模型存在偏差问题。更具体地说，作为（意大利语和英语）语言的概率模型，它们反映并放大了训练数据中的偏差。有关此问题的更多信息，请参考我们的调查：

大语言模型中的偏差：起源、清单和讨论

模型架构

Minerva-1B-base-v1.0是基于Mistral架构的Transformer模型，通过修改层数、头数和隐藏状态维度，使其达到10亿参数。请查看配置文件以详细了解我们为该模型选择的超参数。

Minerva大语言模型系列的组成如下：

模型名称	标记数	层数	隐藏层大小	注意力头数	KV头数	滑动窗口	最大上下文长度
Minerva-350M-base-v1.0	700亿（350亿意大利语 + 350亿英语）	16	1152	16	4	2048	16384
Minerva-1B-base-v1.0	2000亿（1000亿意大利语 + 1000亿英语）	16	2048	16	4	2048	16384
Minerva-3B-base-v1.0	6600亿（3300亿意大利语 + 3300亿英语）	32	2560	32	8	2048	16384

模型训练

Minerva-1B-base-v1.0使用来自MosaicML的llm-foundry 0.6.0进行训练。使用的超参数如下：

模型名称	优化器	学习率	贝塔系数	误差项	调度器	热身步数	批量大小（标记）	总步数
Minerva-350M-base-v1.0	解耦AdamW	2e-4	(0.9, 0.95)	1e-8	余弦调度器	2%	400万	16,690
Minerva-1B-base-v1.0	解耦AdamW	2e-4	(0.9, 0.95)	1e-8	余弦调度器	2%	400万	47,684
Minerva-3B-base-v1.0	解耦AdamW	2e-4	(0.9, 0.95)	1e-8	余弦调度器	2%	400万	157,357

模型评估

我们使用LM-Evaluation-Harness库对模型进行评估，该库是一个全面的框架，用于在广泛的评估任务中测试生成式语言模型。

所有报告的基准数据均来自LM-Evaluation-Harness套件。

意大利语数据

任务	准确率
xcopa（零样本）	0.602
Hellaswag（五样本）	0.3847
Belebele（五样本）	0.25
TruthfulQA MC 1（零样本）	0.2375
TruthfulQA MC 2（零样本）	0.3996
M MMLU（五样本）	0.2546
arc challenge（五样本）	0.2549

英语数据

任务	准确率
Hellaswag（五样本）	0.43
Belebele（五样本）	0.26
TruthfulQA MC 1（零样本）	0.21
TruthfulQA MC 2（零样本）	0.38
M MMLU（五样本）	0.26
arc challenge（五样本）	0.26
arc easy（五样本）	0.4966
piqa（五样本）	0.6975
sciq（五样本）	0.830