语言:
功能示例:
- 文本: "翻译成德语:我的名字是亚瑟"
示例标题: "翻译"
- 文本: "请回答以下问题。谁将成为下一位金球奖得主?"
示例标题: "问答"
- 文本: "问:杰弗里·辛顿能和乔治·华盛顿对话吗?请在回答前给出理由。"
示例标题: "逻辑推理"
- 文本: "请回答以下问题。氮的沸点是多少?"
示例标题: "科学知识"
- 文本: "回答以下是非题。你能在一条推文中写完整首俳句吗?"
示例标题: "是非题"
- 文本: "通过逐步推理回答以下是非题。你能在一条推文中写完整首俳句吗?"
示例标题: "推理任务"
- 文本: "问:(假或非假或假)的结果是?答:让我们逐步思考"
示例标题: "布尔表达式"
- 文本: "x的平方根等于y的立方根。如果x=4,y的平方是多少?"
示例标题: "数学推理"
- 文本: "前提:在我这个年纪,你可能已经学会了一个教训。假设:三十岁前你会学到多少教训并不确定。前提是否蕴含假设?"
示例标题: "前提与假设"
标签:
数据集:
- svakulenk0/qrecc
- taskmaster2
- djaym7/wiki_dialog
- deepmind/code_contests
- lambada
- gsm8k
- aqua_rat
- esnli
- quasc
- qed
许可证: apache-2.0
FLAN-T5 XXL模型卡

目录
- 摘要
- 模型详情
- 使用方式
- 用途
- 偏见、风险与限制
- 训练详情
- 评估
- 环境影响
- 引用
摘要
如果您已了解T5,那么FLAN-T5在各方面表现更优。在参数量相同的情况下,这些模型额外微调了覆盖更多语言的1000多项任务。
如摘要开篇所述:
Flan-PaLM 540B在多项基准测试中达到最先进水平,例如五样本MMLU得分75.2%。我们还公开了Flan-T5检查点,即使与PaLM 62B等更大模型相比,其小样本表现依然强劲。总体而言,指令微调是提升预训练语言模型性能和可用性的通用方法。
免责声明:本模型卡内容由Hugging Face团队编写,部分内容复制自T5模型卡。
模型详情
模型描述
使用方式
PyTorch模型使用
CPU运行
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-xxl")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-xxl")
input_text = "英译德:你多大了?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
GPU运行
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-xxl")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-xxl", device_map="auto")
input_text = "英译德:你多大了?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
不同精度运行
FP16精度
import torch
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-xxl")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-xxl", device_map="auto", torch_dtype=torch.float16)
input_text = "英译德:你多大了?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
INT8精度
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-xxl")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-xxl", device_map="auto", load_in_8bit=True)
input_text = "英译德:你多大了?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids.to("cuda")
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
用途
直接使用与下游应用
作者在原始论文中说明:
主要用途是语言模型研究,包括:零样本NLP任务和上下文少样本学习NLP任务研究,如推理和问答;推进公平性与安全性研究,理解当前大语言模型的局限性。
超范围使用
需更多信息。
偏见、风险与限制
来自官方模型卡:
包括Flan-T5在内的语言模型可能被有害使用(Rae等,2021)。Flan-T5不应直接用于任何应用,需事先评估特定应用的安全性和公平性。
伦理考量与风险
Flan-T5在未过滤显式内容或评估现有偏见的大规模文本数据上微调,因此可能生成不当内容或反映数据固有偏见。
已知限制
Flan-T5未在真实世界应用中测试。
敏感用途
Flan-T5不得用于任何不可接受的场景,如生成侮辱性言论。
训练详情
训练数据
模型在混合任务上训练,包括下表所示任务(源自原论文图2):

训练过程
根据原始论文:
这些模型基于预训练T5(Raffel等,2020),通过指令微调提升零样本和小样本性能。每个T5模型尺寸对应一个Flan微调模型。
模型使用t5x
代码库和jax
在TPU v3/v4 pod上训练。
评估
测试数据与指标
作者在1836项跨语言任务上评估模型。部分定量评估见下表:

结果
完整结果见研究论文表3。
环境影响
碳排放估算参考Lacoste等(2019)的机器学习影响计算器。
- 硬件类型:Google Cloud TPU Pods (TPU v3/v4 | 芯片数≥4)
- 使用时长:需更多信息
- 云服务商:GCP
- 计算区域:需更多信息
- 碳排放量:需更多信息
引用
@misc{https://doi.org/10.48550/arxiv.2210.11416,
doi = {10.48550/ARXIV.2210.11416},
url = {https://arxiv.org/abs/2210.11416},
author = {Chung, Hyung Won and Hou, Le and Longpre, Shayne and Zoph, Barret and Tay, Yi and Fedus, William and Li, Eric and Wang, Xuezhi and Dehghani, Mostafa and Brahma, Siddhartha and Webson, Albert and Gu, Shixiang Shane and Dai, Zhuyun and Suzgun, Mirac and Chen, Xinyun and Chowdhery, Aakanksha and Narang, Sharan and Mishra, Gaurav and Yu, Adams and Zhao, Vincent and Huang, Yanping and Dai, Andrew and Yu, Hongkun and Petrov, Slav and Chi, Ed H. and Dean, Jeff and Devlin, Jacob and Roberts, Adam and Zhou, Denny and Le, Quoc V. and Wei, Jason},
title = {指令微调语言模型的规模化研究},
publisher = {arXiv},
year = {2022},
copyright = {知识共享署名4.0国际许可}
}