语言: "英文"
标签:
- wikihow
- t5-small
- pytorch
- lm-head
- seq2seq
- t5
- pipeline:summarization
- 摘要生成
数据集:
- Wikihow
小部件:
- 文本: "缺乏水分会导致口干,这是口臭的主要原因。水还能稀释口腔或肠道中引起口臭的化学物质。研究表明,每天吃6盎司酸奶可以减少口腔中引起异味的化合物水平。特别是寻找含有活性细菌嗜热链球菌或保加利亚乳杆菌的酸奶。纤维水果和蔬菜的磨蚀性有助于清洁牙齿,而它们所含的维生素、抗氧化剂和酸能改善牙齿健康。特别有帮助的食物包括:苹果——苹果含有健康牙龈所需的维生素C,以及有助于美白牙齿的苹果酸。胡萝卜——胡萝卜富含维生素A,可以增强牙釉质。芹菜——咀嚼芹菜会产生大量唾液,有助于中和引起口臭的细菌。菠萝——菠萝含有菠萝蛋白酶,这是一种清洁口腔的酶。这些茶已被证明能杀死引起口臭和牙菌斑的细菌。胃部不适会导致打嗝,从而引起口臭。不要吃让胃不舒服的食物,如果吃了,可以使用抗酸剂。如果你有乳糖不耐症,可以尝试乳糖酶片。它们都会引起口臭。如果你吃了这些食物,可以带上无糖口香糖或牙刷和牙膏,之后清洁口腔。低碳水化合物饮食会导致酮症——一种身体主要燃烧脂肪而非碳水化合物获取能量的状态。这可能对你的腰围有好处,但也会产生称为酮体的化学物质,导致口臭。要解决这个问题,你必须改变饮食。或者,你可以通过以下方式对抗异味:多喝水稀释酮体。咀嚼无糖口香糖或含无糖薄荷糖。咀嚼薄荷叶。"
- 文本: "将1/2杯水煮沸。将新鲜或干燥的迷迭香加入水中。离火。静置半小时浸泡。用勺子按压迷迭香叶可以释放更多风味。将切块与接骨木花糖浆一起加入搅拌机或食品加工机中。搅拌或加工成泥。加入柠檬或酸橙汁并搅拌均匀。加盖后放入冰箱。2小时后取出,用叉子打碎。这有助于冰晶正确形成。每小时重复一次,直到冰糕完全冻结。将冰糕舀入甜点碗中即可食用。用黄瓜卷或一小枝迷迭香装饰。"
指标:
- Rouge1: 31.2
- RougeL: 24.5
模型名称
Wikihow T5-small
模型描述
这是一个基于Wikihow All数据集训练的T5-small模型。模型训练了3个epoch,批量大小为16,学习率为3e-4。最大输入长度设置为512,最大输出长度为150。模型的Rouge1得分为31.2,RougeL得分为24.5。
我们撰写了一篇博客文章,详细介绍了训练过程。请点击此处查看。
使用方法
from transformers import AutoTokenizer, AutoModelWithLMHead
tokenizer = AutoTokenizer.from_pretrained("deep-learning-analytics/wikihow-t5-small")
model = AutoModelWithLMHead.from_pretrained("deep-learning-analytics/wikihow-t5-small")
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model = model.to(device)
text = """"
缺乏水分会导致口干,这是口臭的主要原因。水还能稀释口腔或肠道中引起口臭的化学物质。研究表明,每天吃6盎司酸奶可以减少口腔中引起异味的化合物水平。特别是寻找含有活性细菌嗜热链球菌或保加利亚乳杆菌的酸奶。纤维水果和蔬菜的磨蚀性有助于清洁牙齿,而它们所含的维生素、抗氧化剂和酸能改善牙齿健康。特别有帮助的食物包括:苹果——苹果含有健康牙龈所需的维生素C,以及有助于美白牙齿的苹果酸。胡萝卜——胡萝卜富含维生素A,可以增强牙釉质。芹菜——咀嚼芹菜会产生大量唾液,有助于中和引起口臭的细菌。菠萝——菠萝含有菠萝蛋白酶,这是一种清洁口腔的酶。这些茶已被证明能杀死引起口臭和牙菌斑的细菌。胃部不适会导致打嗝,从而引起口臭。不要吃让胃不舒服的食物,如果吃了,可以使用抗酸剂。如果你有乳糖不耐症,可以尝试乳糖酶片。它们都会引起口臭。如果你吃了这些食物,可以带上无糖口香糖或牙刷和牙膏,之后清洁口腔。低碳水化合物饮食会导致酮症——一种身体主要燃烧脂肪而非碳水化合物获取能量的状态。这可能对你的腰围有好处,但也会产生称为酮体的化学物质,导致口臭。要解决这个问题,你必须改变饮食。或者,你可以通过以下方式对抗异味:多喝水稀释酮体。咀嚼无糖口香糖或含无糖薄荷糖。咀嚼薄荷叶。
"""
preprocess_text = text.strip().replace("\n","")
tokenized_text = tokenizer.encode(preprocess_text, return_tensors="pt").to(device)
summary_ids = model.generate(
tokenized_text,
max_length=150,
num_beams=2,
repetition_penalty=2.5,
length_penalty=1.0,
early_stopping=True
)
output = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print ("\n\n摘要文本: \n",output)