这是一个基于T5架构的韩语文本摘要模型,专为韩语文本摘要任务设计,通过微调paust/pko-t5-base模型在多个韩语数据集上训练而成。
下载量 148.32k
发布时间 : 1/14/2023
模型介绍
内容详情
替代品
模型简介
该模型主要用于韩语文本的自动摘要生成,能够从较长的韩语文本中提取关键信息生成简洁的摘要。
模型特点
多数据集微调
模型在韩国论文摘要、书籍摘要和摘要陈述与报告生成三个专业数据集上进行了微调
专业韩语支持
基于专门针对韩语优化的pko-t5-base模型进行微调
灵活的摘要长度控制
可通过参数设置控制生成摘要的最小和最大长度
模型能力
韩语文本理解
文本摘要生成
关键信息提取
使用案例
学术研究
论文摘要生成
自动生成韩语学术论文的摘要
ROUGE-2-F分数0.172
出版行业
书籍内容摘要
为韩语书籍生成简洁的内容摘要
ROUGE-2-F分数0.265
商业报告
报告摘要生成
从长篇商业报告中提取关键信息生成摘要
ROUGE-2-F分数0.177
pipeline_tag: 文本摘要 language:
- 韩语 tags:
- T5模型
t5-base-korean-summarization
这是用于韩语文本摘要的T5模型。
-
基于'paust/pko-t5-base'模型微调。
-
使用3个数据集进行微调,具体如下:
使用方法(HuggingFace Transformers)
import nltk
nltk.download('punkt')
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
model = AutoModelForSeq2SeqLM.from_pretrained('eenzeenee/t5-base-korean-summarization')
tokenizer = AutoTokenizer.from_pretrained('eenzeenee/t5-base-korean-summarization')
prefix = "summarize: "
sample = """
大家好!我们(二年级)的同学们,大家是不是很想回到学校真正成为(二年级)学生,但因为无法返校而感到郁闷呢?
但大家的健康安全是最重要的。从今天开始,老师将带大家每天进行语文之旅。
啊/时间已经这么晚了吗?迟到了迟到了,得赶快开始语文之旅了。
不过在出发前,我们得准备好必需品对吧?老师会告诉大家如何获取语文之旅的教材资料。
搜索(EBS)小学进入首页会看到这样的界面。
点击这里的(X)关闭按钮。看到那个圆圈里的(EBS)(两周)直播特讲了吗?
点击立即前往。点击后会怎样呢?往下滚动滚动再滚动。
我们是几年级?啊/(二年级)对吧,语文科目。
这周是第一周,所以点击这里的教材。下周从这里下载就行。
点击这个教材,瞧/资料就出来了。下载这个教材我们就能开始语文之旅啦。
现在让我们真正开启语文之旅吧?语文之旅出发。第一单元标题是什么?来找找看。
是《享受诗歌》。不是简单地读诗,而是要享受诗歌。怎么享受呢?
我们将学习各种享受诗歌的方法。今天要怎么享受呢?今天学习的内容是用多种方式朗读诗歌。
怎么用多种方式朗读呢?一起来学习吧。今天的诗歌出现啦/!诗歌标题是什么?《吵架的日子》。
和谁吵架了呢?和弟弟?姐姐?朋友?老师会朗读诗歌,大家一起来思考。"""
inputs = [prefix + sample]
inputs = tokenizer(inputs, max_length=512, truncation=True, return_tensors="pt")
output = model.generate(**inputs, num_beams=3, do_sample=True, min_length=10, max_length=64)
decoded_output = tokenizer.batch_decode(output, skip_special_tokens=True)[0]
result = nltk.sent_tokenize(decoded_output.strip())[0]
print('结果 >>', result)
结果 >> 在开始语文之旅前,老师讲解了如何获取旅程所需的教材和资料。
评估结果
- 韩国论文摘要数据集
ROUGE-2-R 0.09868624890432466 ROUGE-2-P 0.9666714545849712 ROUGE-2-F 0.17250881441169427
- 韩国书籍摘要数据集
ROUGE-2-R 0.1575686156943213 ROUGE-2-P 0.9718318136896944 ROUGE-2-F 0.26548116834852586
- 韩国摘要陈述与报告生成数据集
ROUGE-2-R 0.0987891733555808 ROUGE-2-P 0.9276946867981899 ROUGE-2-F 0.17726493110448185
训练参数
模型训练采用以下参数:
- 训练参数
Seq2SeqTrainingArguments(
每设备训练批量大小=8,
每设备评估批量大小=8,
自动寻找批量大小=False,
权重衰减=0.01,
学习率=4e-05,
学习率调度器类型=linear,
训练周期数=3,
混合精度训练=True)
模型架构
T5条件生成模型(
(共享层): 词嵌入(50358, 768)
(编码器): T5堆栈(
(词嵌入): 词嵌入(50358, 768)
(模块块): 模块列表(
(0): T5块(
(层): 模块列表(
(0): T5自注意力层(
(自注意力机制): T5注意力(
(查询层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(键层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(值层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(输出层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(相对注意力偏置): 词嵌入(32, 12)
)
(层归一化): T5层归一化()
(丢弃层): 丢弃层(概率=0.1, 原地=False)
)
(1): T5前馈层(
(门控激活前馈): T5门控激活密集层(
(门控线性层0): 线性层(输入特征=768, 输出特征=2048, 偏置=False)
(门控线性层1): 线性层(输入特征=768, 输出特征=2048, 偏置=False)
(输出线性层): 线性层(输入特征=2048, 输出特征=768, 偏置=False)
(丢弃层): 丢弃层(概率=0.1, 原地=False)
(激活函数): 新型GELU激活()
)
(层归一化): T5层归一化()
(丢弃层): 丢弃层(概率=0.1, 原地=False)
)
)
)
(1~11): T5块(
(层): 模块列表(
(0): T5自注意力层(
(自注意力机制): T5注意力(
(查询层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(键层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(值层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(输出层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
)
(层归一化): T5层归一化()
(丢弃层): 丢弃层(概率=0.1, 原地=False)
)
(1): T5前馈层(
(门控激活前馈): T5门控激活密集层(
(门控线性层0): 线性层(输入特征=768, 输出特征=2048, 偏置=False)
(门控线性层1): 线性层(输入特征=768, 输出特征=2048, 偏置=False)
(输出线性层): 线性层(输入特征=2048, 输出特征=768, 偏置=False)
(丢弃层): 丢弃层(概率=0.1, 原地=False)
(激活函数): 新型GELU激活()
)
(层归一化): T5层归一化()
(丢弃层): 丢弃层(概率=0.1, 原地=False)
)
)
)
)
(最终层归一化): T5层归一化()
(丢弃层): 丢弃层(概率=0.1, 原地=False)
)
(解码器): T5堆栈(
(词嵌入): 词嵌入(50358, 768)
(模块块): 模块列表(
(0): T5块(
(层): 模块列表(
(0): T5自注意力层(
(自注意力机制): T5注意力(
(查询层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(键层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(值层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(输出层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(相对注意力偏置): 词嵌入(32, 12)
)
(层归一化): T5层归一化()
(丢弃层): 丢弃层(概率=0.1, 原地=False)
)
(1): T5交叉注意力层(
(编码解码注意力): T5注意力(
(查询层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(键层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(值层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(输出层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
)
(层归一化): T5层归一化()
(丢弃层): 丢弃层(概率=0.1, 原地=False)
)
(2): T5前馈层(
(门控激活前馈): T5门控激活密集层(
(门控线性层0): 线性层(输入特征=768, 输出特征=2048, 偏置=False)
(门控线性层1): 线性层(输入特征=768, 输出特征=2048, 偏置=False)
(输出线性层): 线性层(输入特征=2048, 输出特征=768, 偏置=False)
(丢弃层): 丢弃层(概率=0.1, 原地=False)
(激活函数): 新型GELU激活()
)
(层归一化): T5层归一化()
(丢弃层): 丢弃层(概率=0.1, 原地=False)
)
)
)
(1~11): T5块(
(层): 模块列表(
(0): T5自注意力层(
(自注意力机制): T5注意力(
(查询层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(键层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(值层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(输出层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
)
(层归一化): T5层归一化()
(丢弃层): 丢弃层(概率=0.1, 原地=False)
)
(1): T5交叉注意力层(
(编码解码注意力): T5注意力(
(查询层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(键层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(值层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
(输出层): 线性层(输入特征=768, 输出特征=768, 偏置=False)
)
(层归一化): T5层归一化()
(丢弃层): 丢弃层(概率=0.1, 原地=False)
)
(2): T5前馈层(
(门控激活前馈): T5门控激活密集层(
(门控线性层0): 线性层(输入特征=768, 输出特征=2048, 偏置=False)
(门控线性层1): 线性层(输入特征=768, 输出特征=2048, 偏置=False)
(输出线性层): 线性层(输入特征=2048, 输出特征=768, 偏置=False)
(丢弃层): 丢弃层(概率=0.1, 原地=False)
(激活函数): 新型GELU激活()
)
(层归一化): T5层归一化()
(丢弃层): 丢弃层(概率=0.1, 原地=False)
)
)
)
(最终层归一化): T5层归一化()
(丢弃层): 丢弃层(概率=0.1, 原地=False)
)
(语言模型头): 线性层(输入特征=768, 输出特征=50358, 偏置=False)
)
引用文献
- Raffel, Colin等. "探索迁移学习的极限:统一文本到文本转换器"《机器学习研究杂志》21.140(2020):1-67.
Bart Large Cnn
MIT
基于英语语料预训练的BART模型,专门针对CNN每日邮报数据集进行微调,适用于文本摘要任务
文本生成
英语
B
facebook
3.8M
1,364
Parrot Paraphraser On T5
Parrot是一个基于T5的释义框架,专为加速训练自然语言理解(NLU)模型而设计,通过生成高质量释义实现数据增强。
文本生成
Transformers

P
prithivida
910.07k
152
Distilbart Cnn 12 6
Apache-2.0
DistilBART是BART模型的蒸馏版本,专门针对文本摘要任务进行了优化,在保持较高性能的同时显著提升了推理速度。
文本生成
英语
D
sshleifer
783.96k
278
T5 Base Summarization Claim Extractor
基于T5架构的模型,专门用于从摘要文本中提取原子声明,是摘要事实性评估流程的关键组件。
文本生成
Transformers

英语
T
Babelscape
666.36k
9
Unieval Sum
UniEval是一个统一的多维评估器,用于自然语言生成任务的自动评估,支持多个可解释维度的评估。
文本生成
Transformers

U
MingZhong
318.08k
3
Pegasus Paraphrase
Apache-2.0
基于PEGASUS架构微调的文本复述模型,能够生成语义相同但表达不同的句子。
文本生成
Transformers

英语
P
tuner007
209.03k
185
T5 Base Korean Summarization
这是一个基于T5架构的韩语文本摘要模型,专为韩语文本摘要任务设计,通过微调paust/pko-t5-base模型在多个韩语数据集上训练而成。
文本生成
Transformers

韩语
T
eenzeenee
148.32k
25
Pegasus Xsum
PEGASUS是一种基于Transformer的预训练模型,专门用于抽象文本摘要任务。
文本生成
英语
P
google
144.72k
198
Bart Large Cnn Samsum
MIT
基于BART-large架构的对话摘要模型,专为SAMSum语料库微调,适用于生成对话摘要。
文本生成
Transformers

英语
B
philschmid
141.28k
258
Kobart Summarization
MIT
基于KoBART架构的韩语文本摘要模型,能够生成韩语新闻文章的简洁摘要。
文本生成
Transformers

韩语
K
gogamza
119.18k
12
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文