pipeline_tag: 翻译
language:
- 英文
- 法语
- 罗马尼亚语
- 德语
datasets:
- c4
tags:
- 摘要生成
- 翻译
license: apache-2.0
T5基础版模型卡

目录
- 模型详情
- 用途
- 偏见、风险与限制
- 训练详情
- 评估
- 环境影响
- 引用
- 模型卡作者
- 快速开始使用模型
模型详情
模型描述
文本到文本转换Transformer(T5)的开发者在文章中写道:
通过T5,我们提出将所有NLP任务重构为统一的文本到文本格式,其中输入和输出始终是文本字符串,这与BERT风格的模型形成对比,后者只能输出类别标签或输入的一部分。我们的文本到文本框架允许我们在任何NLP任务上使用相同的模型、损失函数和超参数。
T5-Base是包含2.2亿参数的检查点。
- 开发者: Colin Raffel、Noam Shazeer、Adam Roberts、Katherine Lee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li、Peter J. Liu。参见相关论文和GitHub仓库
- 模型类型: 语言模型
- 支持语言(NLP): 英语、法语、罗马尼亚语、德语
- 许可证: Apache 2.0
- 相关模型: 所有T5检查点
- 更多信息:
用途
直接使用与下游使用
开发者在博客文章中提到:
我们的文本到文本框架允许我们在任何NLP任务上使用相同的模型、损失函数和超参数,包括机器翻译、文档摘要、问答和分类任务(如情感分析)。我们甚至可以通过训练T5预测数字的字符串表示而非数字本身,将其应用于回归任务。
详情请参阅博客文章和研究论文。
超出范围的使用
需要更多信息。
偏见、风险与限制
需要更多信息。
建议
需要更多信息。
训练详情
训练数据
模型在Colossal Clean Crawled Corpus (C4)上进行了预训练,该数据集与T5在同一研究论文中开发和发布。
模型在无监督(1.)与有监督任务(2.)的多任务混合上进行预训练。具体使用的数据集如下:
- 用于无监督去噪目标的数据集:
- 用于有监督文本到文本语言建模目标的数据集:
- 句子可接受性判断
- 情感分析
- 释义/句子相似度
- 自然语言推理
- 句子补全
- 词义消歧
- 问答
训练过程
开发者在摘要中写道:
在本文中,我们通过引入一个将每个语言问题转换为文本到文本格式的统一框架,探索了NLP迁移学习技术的全景。我们的系统研究比较了数十种语言理解任务上的预训练目标、架构、未标记数据集、迁移方法和其他因素。
引入的T5框架包含了一个整合了论文中研究方法的训练过程。详情请参阅研究论文。
评估
测试数据、因素与指标
开发者在24个任务上评估了模型,完整细节见研究论文。
结果
T5-Base的完整结果见研究论文表14。
环境影响
碳排放量可使用Lacoste等(2019)提出的机器学习影响计算器估算。
- 硬件类型: 谷歌云TPU Pods
- 使用时长: 需要更多信息
- 云服务提供商: GCP
- 计算区域: 需要更多信息
- 碳排放量: 需要更多信息
引用
BibTeX:
@article{2020t5,
author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
journal = {Journal of Machine Learning Research},
year = {2020},
volume = {21},
number = {140},
pages = {1-67},
url = {http://jmlr.org/papers/v21/20-074.html}
}
APA:
- Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. J. Mach. Learn. Res., 21(140), 1-67.
模型卡作者
本模型卡由Hugging Face团队编写。
快速开始使用模型
使用以下代码开始使用模型。
点击展开
from transformers import T5Tokenizer, T5Model
tokenizer = T5Tokenizer.from_pretrained("t5-base")
model = T5Model.from_pretrained("t5-base")
input_ids = tokenizer(
"研究表明养狗对健康有益", return_tensors="pt"
).input_ids
decoder_input_ids = tokenizer("研究显示", return_tensors="pt").input_ids
outputs = model(input_ids=input_ids, decoder_input_ids=decoder_input_ids)
last_hidden_states = outputs.last_hidden_state
更多示例请参阅Hugging Face T5文档和模型开发者创建的Colab笔记本。