许可证:apache-2.0
语言:
标签:
流水线标签:文本到文本生成
示例组件:
- 文本:"摘要:你可能想反抗老板并辞职,但如果出于以下原因,请不要这样做。"
示例标题:"摘要生成"
- 文本:"给定对话:你喜欢跳舞吗?[SEP] 是的,我喜欢。你知道李小龙曾是恰恰舞者吗?"
示例标题:"对话"
- 文本:"描述以下数据:钢铁侠 | 实例 | 超级英雄 [SEP] 斯坦·李 | 创作者 | 钢铁侠"
示例标题:"数据到文本"
- 文本:"给定故事标题:我认为所有公立学校都应实行统一着装规范。"
示例标题:"故事生成"
- 文本:"回答问题:安哥拉于1975年从哪个国家获得独立?"
示例标题:"问答"
- 文本:"根据答案生成问题:拳击 [X_SEP] 波洛拳是武术中使用的一种拳法。勾拳是拳击中的一种拳法。"
示例标题:"问题生成"
MVP模型
MVP模型由田一棠、李俊毅、赵维新和温继荣在论文《MVP:面向自然语言生成的多任务监督预训练》中提出(论文链接:https://arxiv.org/abs/2206.12131)。
详细信息和操作指南请访问:https://github.com/RUCAIBox/MVP。
模型描述
MVP通过混合标注数据集进行监督式预训练,采用标准的Transformer编码器-解码器架构。
该模型专为自然语言生成任务设计,可适配包括但不限于以下场景:摘要生成、数据到文本生成、开放域对话系统、故事生成、问答系统、问题生成、任务导向对话系统、常识生成、复述生成、文本风格转换以及文本简化。同时也可适配自然语言理解任务,如序列分类和(抽取式)问答。
示例
摘要生成:
>>> from transformers import MvpTokenizer, MvpForConditionalGeneration
>>> tokenizer = MvpTokenizer.from_pretrained("RUCAIBox/mvp")
>>> model = MvpForConditionalGeneration.from_pretrained("RUCAIBox/mvp")
>>> inputs = tokenizer(
... "摘要:你可能想反抗老板并辞职,但如果出于以下原因,请不要这样做。",
... return_tensors="pt",
... )
>>> generated_ids = model.generate(**inputs)
>>> tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
["为什么你不该辞职的理由"]
数据到文本生成:
>>> from transformers import MvpTokenizerFast, MvpForConditionalGeneration
>>> tokenizer = MvpTokenizerFast.from_pretrained("RUCAIBox/mvp")
>>> model = MvpForConditionalGeneration.from_pretrained("RUCAIBox/mvp")
>>> inputs = tokenizer(
... "描述以下数据:钢铁侠 | 实例 | 超级英雄 [SEP] 斯坦·李 | 创作者 | 钢铁侠",
... return_tensors="pt",
... )
>>> generated_ids = model.generate(**inputs)
>>> tokenizer.batch_decode(generated_ids, skip_special_tokens=True)
['斯坦·李创造了钢铁侠这一角色,他是美国漫画中出现的虚构超级英雄']
相关模型
MVP基础模型:https://huggingface.co/RUCAIBox/mvp
基于提示的专项模型:
多任务学习模型:
引用
@article{tang2022mvp,
title={MVP:面向自然语言生成的多任务监督预训练},
author={田一棠 and 李俊毅 and 赵维新 and 温继荣},
journal={arXiv预印本},
year={2022},
url={https://arxiv.org/abs/2206.12131},
}