许可协议:开放铁路
数据集:
- humarin/chatgpt-paraphrases
语言:
- 英语
库名称:transformers
推理参数:
beam搜索数:5
beam分组数:5
返回序列数:5
重复惩罚系数:10.01
多样性惩罚系数:3.01
禁止重复词元长度:2
温度参数:0.7
最大长度:128
示例输入:
- 文本:纽约有哪些最佳游览地点?
示例标题:纽约旅游景点
- 文本:我什么时候该去看医生?
示例标题:就医时机
- 文本:Rammstein乐队的专辑《Mutter》于2000年5月至6月在法国南部录制,并于同年10月在斯德哥尔摩完成混音。
示例标题:Rammstein专辑《Mutter》
任务标签:文本到文本生成
本模型基于我们的ChatGPT复述数据集训练而成。
该数据集整合了Quora复述问题、SQUAD 2.0文本以及CNN新闻数据集。
本模型基于T5-base架构,通过"迁移学习"技术使其能像ChatGPT一样生成高质量复述文本。现可宣称这是Hugging Face平台上最优秀的复述模型之一。
Kaggle数据集链接
作者1的LinkedIn
作者2的LinkedIn
部署示例
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
device = "cuda"
tokenizer = AutoTokenizer.from_pretrained("humarin/chatgpt_paraphraser_on_T5_base")
model = AutoModelForSeq2SeqLM.from_pretrained("humarin/chatgpt_paraphraser_on_T5_base").to(device)
def paraphrase(
question,
num_beams=5,
num_beam_groups=5,
num_return_sequences=5,
repetition_penalty=10.0,
diversity_penalty=3.0,
no_repeat_ngram_size=2,
temperature=0.7,
max_length=128
):
input_ids = tokenizer(
f'paraphrase: {question}',
return_tensors="pt", padding="longest",
max_length=max_length,
truncation=True,
).input_ids.to(device)
outputs = model.generate(
input_ids, temperature=temperature, repetition_penalty=repetition_penalty,
num_return_sequences=num_return_sequences, no_repeat_ngram_size=no_repeat_ngram_size,
num_beams=num_beams, num_beam_groups=num_beam_groups,
max_length=max_length, diversity_penalty=diversity_penalty
)
res = tokenizer.batch_decode(outputs, skip_special_tokens=True)
return res
使用示例
输入:
text = '纽约有哪些最佳游览地点?'
paraphrase(text)
输出:
['纽约有哪些必看景点?',
'能推荐些纽约必去的打卡地吗?',
'在纽约哪些地方能体验最地道的纽约风情?',
'纽约有哪些值得造访的地方?',
'纽约最值得探索的顶级目的地有哪些?']
输入:
text = "Rammstein乐队的专辑《Mutter》于2000年5月至6月在法国南部录制,并于同年10月在斯德哥尔摩完成混音。"
paraphrase(text)
输出:
['2000年5月至6月期间,Rammstein乐队赴法国南部录制专辑《Mutter》,混音工作于同年10月在斯德哥尔摩完成。',
'Rammstein的《Mutter》专辑于2000年5月至6月在法国南部录制,混音工程于同年10月在斯德哥尔摩进行。',
'这张由Rammstein推出的《Mutter》专辑,录制于2000年春夏之交的法国南部,最终混音在当年十月于斯德哥尔摩完成。',
'《Mutter》专辑的录制工作始于2000年五月法国南部,Rammstein乐队随后于十月在斯德哥尔摩完成了混音制作。',
'在2000年的五月和六月,Rammstein于法国南部完成了《Mutter》专辑的录制,十月转战斯德哥尔摩进行混音处理。']
训练参数
训练轮次 = 5
批次大小 = 64
最大长度 = 128
学习率 = 5e-5
总批次数 = 196465
优化器参数 = (0.9, 0.999)
极小值 = 1e-08
BibTeX引用信息
@inproceedings{chatgpt_paraphraser,
author={弗拉基米尔·沃罗别夫, 马克西姆·库兹涅佐夫},
title={基于ChatGPT复述的文本改写模型},
year={2023}
}