许可证: mit
数据集:
- PamelaBorelli/Opus_100_en_pt
- recogna-nlp/recognasumm
语言:
- pt
评估指标:
- rouge
流水线标签: summarization
模型卡片:PamelaBorelli/flan-t5-base-summarization-pt-br
基本信息
概述
最终模型的基础原始模型是flan-t5-base。这是一个多语言模型,大小为248M,基于T5(Text-to-Text Transfer Transformer)架构,具有编码器-解码器结构。原始的Flan-T5在多种任务上进行了调整,以提高其泛化能力。
最终模型PamelaBorelli/flan-t5-base-summarization-pt-br在指令微调(finetune)过程中进行了训练。进行了两次微调,首先使用数据集进行文本翻译,随后使用葡萄牙语(巴西)的数据集进行文本摘要任务。
预期用途
该模型专门用于葡萄牙语(巴西)的文本摘要任务。未在其他语言上进行测试。
使用方法
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("PamelaBorelli/flan-t5-base-summarization-pt-br")
model = T5ForConditionalGeneration.from_pretrained("PamelaBorelli/flan-t5-base-summarization-pt-br")
input_text = "O corpo está mais propenso a sentir dores com exercícios de alta intensidade | Foto: Getty Images O problema está em saber identificar qual é qual. "Em algumas situações, é difícil diferenciar uma da outra", reconhece Juan Francisco Marco, professor do Centro de Ciência do Esporte, Treinamento e Fitness Alto Rendimento, na Espanha. "A dor boa é aquela que associamos ao exercício físico, que não limita (o movimento) e permite continuar (a se exercitar) até o momento em que o músculo fica realmente esgotado e não trabalha mais", explica. É importante detectar qual é o tipo de dor que você está sentindo, para evitar ter problemas mais sérios | Foto: Getty Images Para Francisco Sánchez Diego, diretor do centro de treinamento Corpore 10, "a dor boa se sente no grupo muscular que você trabalhou, tanto durante o treinamento como nos dias seguintes"."
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids)
print(tokenizer.decode(outputs[0]))
语言
葡萄牙语(巴西)
训练数据
模型使用以下参数进行摘要任务训练:
evaluation_strategy="steps" #评估输出的方式
eval_steps= #评估输出的步数
learning_rate= #学习率
per_device_train_batch_size= #训练批次大小
per_device_eval_batch_size= #验证批次大小
gradient_accumulation_steps= #累积批次的步数
weight_decay= #L2正则化
num_train_epochs= #训练轮数
save_strategy="steps" #保存输出的方式
save_steps = #保存输出的步数
push_to_hub=False #是否将模型保存到Hugging Face Hub
load_best_model_at_end=True #训练结束时加载最佳模型(回调所需)
分词使用的参数:
start_prompt= "Sumarize: \n" #摘要指令的开头
end_prompt= "\n\nSumário: " #摘要指令的结尾
input_name="coluna_imput" #数据集中源文本的列名
target_name="coluna_target" #数据集中目标文本的列名
max_input_length = 256 #分词的最大输入长度
max_target_length = 256 #分词的最大目标长度
columns_to_remove= ['coluna_to_remove'] #从原始数据集中移除的列