语言支持:
功能示例:
- 文本: "翻译成德语:我的名字是亚瑟"
示例标题: "翻译"
- 文本: "请回答以下问题:谁将成为下一位金球奖得主?"
示例标题: "问答"
- 文本: "问:杰弗里·辛顿能和乔治·华盛顿对话吗?请在回答前给出理由。"
示例标题: "逻辑推理"
- 文本: "请回答以下问题:氮的沸点是多少?"
示例标题: "科学知识"
- 文本: "回答以下是非题:你能在一条推文中写完整首俳句吗?"
示例标题: "是非题"
- 文本: "通过逐步推理回答以下是非题:你能在一条推文中写完整首俳句吗?"
示例标题: "推理任务"
- 文本: "问:(假或非假或假)的结果是?答:让我们逐步思考"
示例标题: "布尔表达式"
- 文本: "x的平方根是y的立方根。如果x=4,y的平方是多少?"
示例标题: "数学推理"
- 文本: "前提:在我这个年纪,你可能已经学会了一个教训。假设:三十岁前你会学到多少教训并不确定。这个前提是否蕴含假设?"
示例标题: "前提与假设"
标签:
数据集:
- svakulenk0/qrecc
- taskmaster2
- djaym7/wiki_dialog
- deepmind/code_contests
- lambada
- gsm8k
- aqua_rat
- esnli
- quasc
- qed
许可协议: Apache-2.0
FLAN-T5大模型卡片

目录
- 摘要
- 模型详情
- 使用方法
- 用途
- 偏见、风险与限制
- 训练详情
- 评估
- 环境影响
- 引用
- 模型卡片作者
摘要
如果您已了解T5,那么FLAN-T5在各方面都更胜一筹。在参数量相同的情况下,这些模型额外微调了覆盖更多语言的1000多项任务。如摘要开篇所述:
Flan-PaLM 540B在多个基准测试中达到最先进水平,例如MMLU五样本准确率75.2%。我们还公开了Flan-T5检查点,即使与PaLM 62B等更大模型相比也展现出强大的小样本性能。总体而言,指令微调是提升预训练语言模型性能和可用性的通用方法。
免责声明:本模型卡片内容由Hugging Face团队编写,部分内容复制自T5模型卡片。
模型详情
模型描述
使用方法
PyTorch模型使用
CPU运行
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("google/flan-t5-large")
model = T5ForConditionalGeneration.from_pretrained("google/flan-t5-large")
input_text = "英译德:你多大了?"
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
GPU运行(支持FP16/INT8精度)
详细代码示例见原文,包含自动设备分配和不同精度配置方案。
用途
直接使用与下游应用
原论文指出:
主要用途是语言模型研究,包括:零样本NLP任务和上下文少样本学习的NLP任务研究(如推理和问答);推进公平性与安全性研究;理解当前大语言模型的局限性
超范围使用
需进一步研究。
偏见、风险与限制
官方模型卡片声明:
包括Flan-T5在内的语言模型可能被有害使用。任何应用前都需进行安全性和公平性评估。
伦理考量
训练数据未经过有害内容过滤或偏见评估,模型可能生成不当内容或反映数据中的固有偏见。
使用限制
未在真实场景中充分测试,禁止用于生成侮辱性言论等场景。
训练详情
训练数据
混合了多种任务的数据集(完整任务列表见原论文图2)
训练过程
基于T5预训练模型进行指令微调,使用TPU v3/v4 Pod和t5x代码库训练。
评估
评估数据与指标
在1836项跨语言任务上测试,具体量化结果见原论文表3。
环境影响
训练硬件:Google Cloud TPU Pods(v3/v4,≥4芯片)
碳排放数据:需补充
引用
@misc{flan-t5,
title={Scaling Instruction-Finetuned Language Models},
author={Chung, Hyung Won et al.},
year={2022},
publisher={arXiv}
}