pko-t5-base开源韩语模型 - 专为韩语优化，解决韩语分词难题

首页

Pko T5 Base

由 paust 开发

pko-t5是专为韩语优化的T5模型，采用纯韩语数据训练而成，使用BBPE分词技术解决韩语分词问题。

大型语言模型

Transformers

韩语#韩语优化 #BBPE分词 #多任务微调

下载量 874

发布时间 : 5/16/2022

模型简介

pko-t5是基于T5 v1.1架构的韩语优化模型，通过无监督学习在韩语语料上训练，适用于多种韩语NLP任务。

模型特点

韩语优化

专门针对韩语设计和优化，使用纯韩语数据进行训练。

BBPE分词

采用BBPE（无OOV问题）替代sentencepiece进行韩语分词，提高分词效果。

多任务支持

支持多种NLP任务，包括文本生成、分类、问答等。

模型能力

文本生成

文本分类

问答系统

命名实体识别

语义相似度计算

使用案例

自然语言处理

韩语问答系统

构建韩语问答系统，回答用户提出的问题。

在KLUE基准测试中表现良好

文本分类

对韩语文本进行分类，如新闻分类、情感分析等。

在YNAT任务中达到87.29宏F1

🚀 pko-t5-base

pko-t5-base是使用韩语专用数据训练的 T5 v1.1模型，它能有效处理韩语相关任务，为韩语自然语言处理提供了强大支持。

🚀 快速开始

pko-t5使用无OOV的BBPE代替sentencepiece对韩语进行分词，并使用韩语数据（如나무위키、维基百科、 모두의말뭉치等），仅通过T5的跨度损坏任务进行无监督学习。使用pko-t5时，建议针对目标任务进行微调。

可以使用transformers的API访问该模型。使用分词器时，请使用 T5TokenizerFast 而非 T5Tokenizer，模型可直接使用 T5ForConditionalGeneration。

✨ 主要特性

韩语专用训练：使用韩语专用数据进行训练，更适配韩语处理任务。
分词方式优化：采用无OOV的BBPE进行韩语分词，提升分词效果。
无监督学习：仅通过T5的跨度损坏任务进行无监督学习。

📦 安装指南

文档未提及安装步骤，可参考transformers库的安装方法来安装相关依赖。

💻 使用示例

基础用法

from transformers import T5TokenizerFast, T5ForConditionalGeneration

tokenizer = T5TokenizerFast.from_pretrained('paust/pko-t5-base')
model = T5ForConditionalGeneration.from_pretrained('paust/pko-t5-base')

input_ids = tokenizer(["qa question: 당신의 이름은 무엇인가요?"]).input_ids
labels = tokenizer(["T5 입니다."]).input_ids
outputs = model(input_ids=input_ids, labels=labels)

print(f"loss={outputs.loss} logits={outputs.logits}")

📚 详细文档

Klue评估 (dev)

属性	详情
评估指标	ynat (macro F1)、sts (pearsonr/F1)、nli (acc)、ner (entity - level F1)、re (micro F1)、dp (LAS)、mrc (EM/F1)
对比模型	Baseline、pko - t5 - small、pko - t5 - base、pko - t5 - large
训练方式	FT（单任务微调）、MT（多任务微调）

	模型	ynat (macro F1)	sts (pearsonr/F1)	nli (acc)	ner (entity - level F1)	re (micro F1)	dp (LAS)	mrc (EM/F1)
	基线模型	87.30	93.20/86.13	89.50	86.06	71.06	87.93	75.26/-
FT	[pko - t5 - small](https://huggingface.co/paust/pko - t5 - small) (77M)	86.21	77.99/77.01	69.20	82.60	66.46	93.15	43.81/46.58
FT	[pko - t5 - base](https://huggingface.co/paust/pko - t5 - base) (250M)	87.29	90.25/83.43	79.73	87.80	67.23	97.28	61.53/64.74
FT	[pko - t5 - large](https://huggingface.co/paust/pko - t5 - large) (800M)	87.12	92.05/85.24	84.96	88.18	75.17	97.60	68.01/71.44
MT	pko - t5 - small	84.54	68.50/72.02	51.16	74.69	66.11	80.40	43.60/46.28
MT	pko - t5 - base	86.89	83.96/80.30	72.03	85.27	66.59	95.05	61.11/63.94
MT	pko - t5 - large	87.57	91.93/86.29	83.63	87.41	71.34	96.99	70.70/73.72