it5-base-oscar开源模型 - 助力意大利语处理的序列到序列翻译利器

首页

It5 Base Oscar

由 gsarti 开发

首个针对意大利语进行大规模序列到序列Transformer模型预训练的项目，基于OSCAR语料库训练

大型语言模型其他开源协议:Apache-2.0 #意大利语预训练 #序列到序列 #文本生成

下载量 19

发布时间 : 3/2/2022

模型简介

该模型是IT5模型家族的基础版本，专门针对意大利语进行预训练，采用T5架构，适用于各种序列到序列任务。

模型特点

意大利语专用预训练

首个针对意大利语进行大规模预训练的序列到序列Transformer模型

基于OSCAR语料库

使用OSCAR语料库的意大利语部分进行训练

改进版分词器

采用在mC4意大利语部分训练的SentencePieceUnigramTokenizer

TPU优化训练

在Google Cloud的TPU3v8-VM机器上完成训练，由Google TPU研究云赞助

模型能力

意大利语文本理解

意大利语文本生成

序列到序列转换

使用案例

自然语言处理

自然语言推理

可用于自然语言推理任务，如前提-假设关系判断

参见微调模型gsarti/it5-base-nli

文本摘要

可用于意大利语文本的自动摘要生成

机器翻译

可用于意大利语相关的翻译任务

🚀 意大利语T5基础模型（Oscar）🇮🇹

本仓库包含曾被称为 gsarti/t5-base-it 的模型

IT5 模型家族是首次针对意大利语进行大规模序列到序列Transformer模型预训练的尝试，采用了原始 T5模型的方法。

该模型是项目 "IT5: 用于意大利语理解和生成的大规模文本到文本预训练"（待发布）的一部分，由 Gabriele Sarti 在 Huggingface 的支持下完成，并且TPU的使用由谷歌的 TPU研究云赞助。所有训练都在谷歌云的一台TPU3v8 - VM机器上进行。有关训练过程的概述，请参考仓库的Tensorboard标签。

推理小部件已停用，因为该模型需要在下游任务上进行特定任务的序列到序列微调才能在实际中发挥作用。模型 gsarti/it5-base-nli 提供了该模型在下游自然语言推理（NLI）任务上微调的示例。

✨ 主要特性

模型变体

本仓库包含在 OSCAR语料库上使用 🤗 Datasets 训练的 base 版本模型的检查点。采用了 t5-base 模型的原始配置，但在预训练期间，dropout_rate 参数设置为 0 而非 0.1，这遵循了 t5-v1.1 的实现。分词器是在意大利语部分的 mC4 语料库的前200万个句子上训练的 SentencePieceUnigramTokenizer。在彻底清理的意大利语mC4语料库（约410亿个单词，约275GB）上训练的改进版本模型也以 gsarti/it5-base 的名称提供。训练过程可在 Github 上查看。

以下表格总结了所有可用模型的参数：

	`it5-small`	`it5-base`	`it5-large`	`it5-base-oscar`（本模型）
`数据集`	`gsarti/clean_mc4_it`	`gsarti/clean_mc4_it`	`gsarti/clean_mc4_it`	`oscar/unshuffled_deduplicated_it`
`架构`	`google/t5-v1_1-small`	`google/t5-v1_1-base`	`google/t5-v1_1-large`	`t5-base`
`学习率`	5e - 3	5e - 3	5e - 3	1e - 2
`步数`	1050000	1050000	2100000	258000
`训练时间`	36小时	101小时	370小时	98小时
`前馈投影`	`gated - gelu`	`gated - gelu`	`gated - gelu`	`relu`
`绑定嵌入`	`false`	`false`	`false`	`true`
`优化器`	adafactor	adafactor	adafactor	adafactor
`最大序列长度`	512	512	512	512
`每设备批量大小`	16	16	8	16
`总批量大小`	128	128	64	128
`权重衰减`	1e - 3	1e - 3	1e - 2	1e - 3
`验证集分割大小`	15K个示例	15K个示例	15K个示例	15K个示例

it5-base-oscar 训练时间较长是由于训练脚本中的一个bug 导致的。

有关单个模型参数的列表，请参考各自仓库中的 config.json 文件。

📦 安装指南

无明确安装步骤，跳过此章节。

💻 使用示例

基础用法

from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("gsarti/it5-base-oscar")
model = T5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")

注意：你需要在下游序列到序列任务上微调该模型才能使用它。示例请见此处。

高级用法

from transformers import FlaxT5ForConditionalGeneration, TFT5ForConditionalGeneration

model_flax = FlaxT5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")
model_tf = TFT5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")

🔧 技术细节

由于IT5模型是在网络抓取的语料库上训练的，其使用可能会重现并放大数据中已有的偏差，从而产生潜在的有害内容，如种族或性别刻板印象以及阴谋论观点。因此，鼓励对这些偏差进行研究，并且理想情况下，模型的使用应仅限于面向研究且不直接面向用户的工作。

📚 详细文档

模型维护者

如有关于此模型的问题或更新需求，请联系 gabriele.sarti996@gmail.com。

引用信息

@article{sarti-nissim-2022-it5,
    title={IT5: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation},
    author={Sarti, Gabriele and Nissim, Malvina},
    journal={ArXiv preprint 2203.03759},
    url={https://arxiv.org/abs/2203.03759},
    year={2022},
    month={mar}
}