pegasus_indonesian_base-finetune开源模型 - 免费实现印尼语新闻文本高效摘要

首页

Pegasus Indonesian Base Finetune

由 thonyyy 开发

该模型是基于PEGASUS架构的印尼语文本摘要模型，在Indosum、Liputan6和XLSum数据集上微调而成，适用于新闻类文本摘要任务。

文本生成

Transformers

其他开源协议:Apache-2.0 #印尼语摘要 #新闻文本优化 #多数据集微调

下载量 172

发布时间 : 6/27/2023

模型简介

这是一个针对印尼语文本的自动摘要生成模型，特别优化了新闻类文本的处理能力，能够从长篇文章中提取关键信息生成简洁摘要。

模型特点

多数据集微调

在Indosum、Liputan6和XLSum三个印尼语数据集上进行微调，增强了模型泛化能力

文本预处理集成

内置文本清洗功能，可自动处理链接、特殊字符等干扰因素

TPU优化训练

使用Google TPU研究云进行训练，确保高效训练过程

模型能力

印尼语文本摘要

新闻内容提炼

长文本压缩

使用案例

新闻媒体

新闻摘要生成

自动为新闻文章生成简洁摘要

在Indosum数据集上ROUGE-1达到52.43

内容分析

报告关键信息提取

从长篇报告中提取核心内容

🚀 印度尼西亚基础微调版Pegasus模型

本模型是基于Transformer架构的文本摘要模型，在多个印尼语数据集上微调，能有效对新闻文本进行摘要提取，为信息获取提供便利。

🚀 快速开始

如果你想快速试用该模型，可前往此笔记本。

Github 链接：PEGASUS TPU 训练器

本模型是 pegasus_indonesian_base-pretrain 在 Indosum、Liputan6 和 XLSum 数据集上的微调版本。

✨ 主要特性

适用范围与局限性

本模型不区分大小写，除逗号和句号外无法识别特殊字符，对于非新闻类文章文本的处理效果可能不佳。

性能表现

数据集	Rouge-1	Rouge-2	Rouge-L	BERTScore
Indosum	52.43	41.23	48.18	80.68
Liputan6	38.27	20.22	31.26	76.31
XLSum	26.97	9.99	21.70	73.62

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

# Load model and tokenizer
from transformers import TFPegasusForConditionalGeneration, PegasusTokenizerFast
model_name = "thonyyy/pegasus_indonesian_base-finetune"
model = TFPegasusForConditionalGeneration.from_pretrained(model_name)
tokenizer = PegasusTokenizerFast.from_pretrained(model_name)

# Main function to clean text, removes link, bullet point, non ASCII char, parantheses,
# punctuation except "," and ".", numbers with dot (enumerating), extra whitespaces, too short sentences.
import re
import unicodedata
def text_cleaning(input_string):
    lowercase = input_string.lower()
    remove_link = re.sub(r'(https?:\/\/)?([\da-z\.-]+)\.([a-z\.]{2,6})([\/\w\.-]*)', '', lowercase).replace("&amp;","&")
    remove_bullet = "\n".join([T for T in remove_link.split('\n') if '•' not in T and "baca juga:" not in T])
    remove_accented = unicodedata.normalize('NFKD', remove_bullet).encode('ascii', 'ignore').decode('utf-8', 'ignore')
    remove_parentheses = re.sub("([\(\|]).*?([\)\|])", "\g<1>\g<2>", remove_accented)
    remove_punc = re.sub(r"[^\w\d.\s]+",' ', remove_parentheses)
    remove_num_dot = re.sub(r"(?<=\d)\.|\.(?=\d)|(?<=#)\.","", remove_punc)
    remove_extra_whitespace =  re.sub(r'^\s*|\s\s*', ' ', remove_num_dot).strip()
    return ".".join([s for s in remove_extra_whitespace.strip().split('.') if len(s.strip())>10]).replace("_","")

# Article to summarize
sample_article="""
Dana Moneter Internasional (IMF) menilai Indonesia telah menunjukkan pemulihan ekonomi yang baik pasca pandemi melalui kinerja makroekonomi yang kuat, didukung penerapan kebijakan moneter dan fiskal secara berhati-hati. Kebijakan forward looking dan sinergi telah berhasil membawa Indonesia menghadapi tantangan global pada tahun 2022 dengan pertumbuhan yang sehat, tekanan inflasi yang menurun, dan sistem keuangan yang stabil.  Bank Indonesia menyambut baik hasil asesmen IMF atas perekonomian Indonesia dalam laporan Article IV Consultation tahun 2023 yang dirilis hari ini (26/6).
Dewan Direktur IMF menyampaikan apresiasi dan catatan positif terhadap berbagai kebijakan yang ditempuh otoritas Indonesia selama tahun 2022. Pertama, keberhasilan otoritas untuk kembali kepada batas maksimal defisit fiskal 3%, lebih cepat dari yang diperkirakan dan komitmen otoritas untuk menerapkan disiplin fiskal. Kedua, penerapan kebijakan moneter yang memadai untuk menjaga stabilitas harga. Ketiga, ketahanan sektor keuangan yang tetap terjaga. Keempat, penerapan UU Cipta Kerja serta UU Pengembangan dan Penguatan Sektor Keuangan, dengan memastikan implementasi yang tepat dan keberlanjutan momentum reformasi untuk mendorong kemudahan berinvestasi, meningkatkan pendalaman pasar keuangan, dan memitigasi dampak scarring dari pandemi. Kelima, strategi diversifikasi Indonesia yang fokus pada upaya hilirisasi dalam rangka meningkatkan nilai tambah ekspor. Keenam, komitmen otoritas untuk mengurangi emisi  gas rumah kaca dan deforestasi.
"""

# Generate summary
x = tokenizer(text_cleaning(sample_article), return_tensors = 'tf')
y = model.generate(**x)
suummary = tokenizer.batch_decode(y, skip_special_tokens=True)
print(summary)

📚 详细文档

训练数据

微调数据集：

训练流程

如需复现训练过程，请访问 GitHub 页面。

训练超参数

训练过程中使用了以下超参数：

优化器：{'name': 'Adafactor', 'weight_decay': None, 'clipnorm': None, 'global_clipnorm': None, 'clipvalue': None, 'use_ema': False, 'ema_momentum': 0.99, 'ema_overwrite_frequency': None, 'jit_compile': False, 'is_legacy_optimizer': False, 'learning_rate': 0.00013661868, 'beta_2_decay': -0.8, 'epsilon_1': 1e-30, 'epsilon_2': 0.001, 'clip_threshold': 1.0, 'relative_step': True}
训练精度：float32