语言:
- 意大利语
数据集:
- oscar
标签:
- seq2seq
- lm-head
许可证: apache-2.0
推理: false
意大利语T5基础模型(Oscar版)🇮🇹
此仓库包含曾用名为gsarti/t5-base-it
的模型
IT5模型家族是首个针对意大利语进行大规模序列到序列Transformer模型预训练的项目,遵循了原始T5模型的方法。
本模型作为"IT5:意大利语理解与生成的大规模文本到文本预训练"项目(即将发布)的一部分发布,由Gabriele Sarti在Huggingface支持下完成,并由Google的TPU研究云赞助TPU使用。所有训练均在Google Cloud的单个TPU3v8-VM机器上完成。训练过程概览可参考仓库的Tensorboard标签页。
推理组件已停用,因为该模型需针对下游任务进行特定任务的seq2seq微调才能实际应用。模型gsarti/it5-base-nli
展示了该模型在自然语言推理任务上微调的示例。
模型变体
此仓库包含基于OSCAR语料库使用🤗 Datasets训练的base
版本模型检查点。模型配置采用原始t5-base
参数,但预训练期间dropout_rate
设为0
而非0.1
,遵循t5-v1.1
实现。分词器为在mC4
意大利语部分前200万句训练的SentencePieceUnigramTokenizer
。改进版模型gsarti/it5-base
基于深度清洗的意大利语mC4语料库(约410亿词,275GB)训练。训练流程已在Github开源。
下表汇总了所有可用模型的参数:
|
it5-small |
it5-base |
it5-large |
it5-base-oscar (本模型) |
数据集 |
gsarti/clean_mc4_it |
gsarti/clean_mc4_it |
gsarti/clean_mc4_it |
oscar/unshuffled_deduplicated_it |
架构 |
google/t5-v1_1-small |
google/t5-v1_1-base |
google/t5-v1_1-large |
t5-base |
学习率 |
5e-3 |
5e-3 |
5e-3 |
1e-2 |
训练步数 |
1,050,000 |
1,050,000 |
2,100,000 |
258,000 |
训练时长 |
36小时 |
101小时 |
370小时 |
98小时 |
前馈投影 |
门控gelu |
门控gelu |
门控gelu |
relu |
嵌入绑定 |
false |
false |
false |
true |
优化器 |
adafactor |
adafactor |
adafactor |
adafactor |
最大序列长度 |
512 |
512 |
512 |
512 |
单设备批大小 |
16 |
16 |
8 |
16 |
总批大小 |
128 |
128 |
64 |
128 |
权重衰减 |
1e-3 |
1e-3 |
1e-2 |
1e-3 |
验证集规模 |
1.5万例 |
1.5万例 |
1.5万例 |
1.5万例 |
it5-base-oscar
较长训练时间源于训练脚本的一个bug。
各模型具体参数请参见对应仓库的config.json
文件。
使用模型
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("gsarti/it5-base-oscar")
model = T5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")
注:需在下游seq2seq任务上微调模型才能使用。示例参见此处。
同时提供Flax和Tensorflow版本:
from transformers import FlaxT5ForConditionalGeneration, TFT5ForConditionalGeneration
model_flax = FlaxT5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")
model_tf = TFT5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")
局限性
由于IT5模型训练数据来自网络爬取语料,其使用可能复制并放大数据中已有的偏见,导致产生种族/性别刻板印象等有害内容。因此我们明确鼓励研究这些偏见,理想情况下模型应仅用于研究目的和非面向用户场景。
模型维护
如有问题或更新需求,请联系gabriele.sarti996@gmail.com。
引用信息
@article{sarti-nissim-2022-it5,
title={IT5:意大利语理解与生成的大规模文本到文本预训练},
author={Sarti, Gabriele and Nissim, Malvina},
journal={ArXiv预印本 2203.03759},
url={https://arxiv.org/abs/2203.03759},
year={2022},
month={三月}
}