mT5_multilingual_XLSum-sumarizacao-PTBR开源模型 - 免费实现葡萄牙语文本快速摘要

首页

Mt5 Multilingual XLSum Sumarizacao PTBR

由 GiordanoB 开发

该模型是基于mT5_multilingual_XLSum在未知数据集上微调得到的葡萄牙语文本摘要模型

文本生成

Transformers

#葡萄牙语摘要 #多语言微调 #文本压缩

下载量 23

发布时间 : 5/31/2022

模型简介

这是一个针对葡萄牙语文本进行自动摘要的模型，基于mT5架构进行微调，能够生成简洁的文本摘要。

模型特点

多语言支持

基于mT5架构，支持多语言处理，特别是针对葡萄牙语进行了优化

高质量摘要

在评估集上取得了42.0195的Rouge1得分，表明摘要质量较高

可调节生成长度

支持通过参数控制摘要的最小和最大长度，适应不同需求

模型能力

葡萄牙语文本摘要

多长度摘要生成

文本压缩

使用案例

新闻摘要

新闻文章摘要

将长篇新闻文章自动压缩为简短摘要

生成约75-200字的摘要

文档处理

报告摘要

自动生成商业报告或研究文档的摘要

🚀 mT5_multilingual_XLSum-sumarizacao-PTBR

该模型是在未知数据集上对 csebuetnlp/mT5_multilingual_XLSum 进行微调后的版本。它在自然语言处理任务中，尤其是文本摘要生成方面具有一定优势，能够帮助用户高效地从长文本中提取关键信息。

🚀 快速开始

以下是使用该模型进行文本摘要生成的示例代码：

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))

model_name = "GiordanoB/mT5_multilingual_XLSum-sumarizacao-PTBR"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

    input_ids = tokenizer(
        [WHITESPACE_HANDLER(sumariosDuplos[i])],
        return_tensors="pt",
        padding="max_length",
        truncation=True,
        max_length=512
    )["input_ids"]

    output_ids = model.generate(
        input_ids=input_ids,
        max_length=200,
        min_length=75,
        no_repeat_ngram_size=2,
        num_beams=5
    )[0]

    summary = tokenizer.decode(
        output_ids,
        skip_special_tokens=True,
        clean_up_tokenization_spaces=False
    )

    sumariosFinal.append(summary)
    print(i,"\n",summary,"\n")

💻 使用示例

基础用法

上述代码展示了如何使用该模型进行文本摘要生成的基础用法。通过加载预训练的模型和分词器，对输入文本进行编码，然后使用模型生成摘要，最后将生成的摘要解码输出。

高级用法

在实际应用中，你可以根据具体需求调整 generate 方法的参数，如 max_length、min_length、no_repeat_ngram_size 和 num_beams 等，以获得不同长度和质量的摘要。

📚 详细文档

评估集结果

该模型在评估集上取得了以下结果：

损失值（Loss）: 1.3870
Rouge1: 42.0195
Rouge2: 24.9493
Rougel: 32.3653
Rougelsum: 37.9982
生成长度（Gen Len）: 77.0

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率（learning_rate）: 2e-05
训练批次大小（train_batch_size）: 8
评估批次大小（eval_batch_size）: 8
随机种子（seed）: 42
优化器（optimizer）: Adam，其中 betas=(0.9, 0.999)，epsilon=1e-08
学习率调度器类型（lr_scheduler_type）: 线性
训练轮数（num_epochs）: 5

训练结果

训练损失	轮数	步数	验证损失	Rouge1	Rouge2	Rougel	Rougelsum	生成长度
无日志	1.0	15	1.5687	32.2316	18.9289	23.918	27.7216	51.5714
无日志	2.0	30	1.4530	41.2297	26.1883	30.8012	37.1727	69.5714
无日志	3.0	45	1.4043	40.8986	24.4993	31.349	36.8782	72.2143
无日志	4.0	60	1.3908	42.1019	25.5555	32.9018	38.0202	74.5
无日志	5.0	75	1.3870	42.0195	24.9493	32.3653	37.9982	77.0