语言: "英文"
标签:
- wikihow
- t5小型模型
- pytorch框架
- 语言模型头部
- 序列到序列
- t5架构
- 功能管线:摘要生成
- 文本摘要
数据集:
- 维基指南
演示样例:
- 最大长度: 1
- 文本: "体液不足会导致口腔干燥,这是口臭的主要原因。水能稀释口腔或肠道中引起异味的化学物质。研究表明,每日食用6盎司酸奶可降低口腔致臭化合物水平。特别推荐含活性菌种嗜热链球菌或保加利亚乳杆菌的酸奶。纤维质果蔬的摩擦作用能清洁牙齿,其富含的维生素、抗氧化剂和酸性物质可改善牙齿健康。特别推荐以下食物:苹果——含牙龈健康必需的维生素C及美白牙齿的苹果酸;胡萝卜——富含增强牙釉质的维生素A;芹菜——咀嚼时产生大量中和致臭细菌的唾液;菠萝——含清洁口腔的菠萝蛋白酶酶类。这些茶饮已被证实能杀灭导致口臭和牙菌斑的细菌。胃部不适引发嗳气会加重口臭,应避免刺激性食物或服用抗酸剂。乳糖不耐受者可尝试乳糖酶片。某些食物易引发口臭,食用后建议使用无糖口香糖或刷牙清洁。低碳水化合物饮食会导致酮症——身体主要燃烧脂肪而非碳水供能的状态,虽有助于瘦身但会产生致口臭的酮类化合物。改善方法包括:调整饮食结构、大量饮水稀释酮体、咀嚼无糖口香糖或含薄荷叶。"
- 文本: "将1/2杯水煮沸,加入新鲜或干燥迷迭香后离火静置半小时浸泡,用勺按压叶片可释放更多风味。将混合物与接骨木花糖浆倒入搅拌机打成泥状,加入柠檬或青柠汁调匀。覆盖容器放入冷冻层,两小时后取出用叉子搅碎以促进冰晶形成,此后每小时重复此操作直至完全冻结。最后将冰沙盛入甜品碗,可饰以黄瓜卷或迷迭香小枝。"
评估指标:
- Rouge1: 31.2
- RougeL: 24.5
模型名称
维基指南T5小型模型
模型说明
本模型是基于维基指南全量数据集训练的T5-small架构模型。训练参数为:3个训练周期、16的批次大小、3e-4学习率,输入输出最大长度分别设为512和150。模型取得Rouge1分数31.2和RougeL分数24.5。我们撰写了详细训练过程的博客文章,请访问此处。
使用方式
from transformers import AutoTokenizer, AutoModelWithLMHead
tokenizer = AutoTokenizer.from_pretrained("deep-learning-analytics/wikihow-t5-small")
model = AutoModelWithLMHead.from_pretrained("deep-learning-analytics/wikihow-t5-small")
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
model = model.to(device)
text = """"
(此处填入需要摘要的原始文本)
"""
preprocess_text = text.strip().replace("\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\
","")
tokenized_text = tokenizer.encode(preprocess_text, return_tensors="pt").to(device)
summary_ids = model.generate(
tokenized_text,
max_length=150,
num_beams=2,
repetition_penalty=2.5,
length_penalty=1.0,
early_stopping=True
)
output = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print ("\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\
\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\
生成摘要: \\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\\
",output)