Kobart Base V2

K

Kobart Base V2

由 gogamza 开发

KoBART是基于BART架构的韩语编码器-解码器语言模型，通过文本填充噪声函数训练，支持韩语文本特征提取和生成任务。

大型语言模型

韩语开源协议:MIT #韩语文本生成 #自编码语言模型 #文本填充去噪

下载量 5,937

发布时间 : 3/2/2022

模型简介

韩语BART模型，采用自编码器形式训练，适用于韩语文本的特征提取和生成任务。

模型特点

韩语优化

专门针对韩语训练，包含韩语维基和其他多种韩语语料

表情符号支持

词汇表中特别添加了高频使用的表情符号，提升表情符号识别能力

高效分词

采用字符级BPE分词器进行训练，分词效率高

模型能力

韩语文本特征提取

韩语文本生成

文本填充

文本摘要

使用案例

文本处理

情感分析

用于韩语文本的情感分类

在NSMC数据集上达到90.24%的准确率

文本相似度计算

计算韩语句子间的语义相似度

在KorSTS数据集上斯皮尔曼系数达到81.66

问句配对

判断两个韩语问句是否语义相同

准确率达到94.34%

🚀 kobart-base-v2 模型卡片

kobart-base-v2 是基于 BART 架构的韩语 encoder-decoder 语言模型，通过对大量韩语文本进行训练，可用于特征提取等任务。

🚀 快速开始

使用以下代码开始使用该模型：

点击展开

from transformers import PreTrainedTokenizerFast, BartModel

tokenizer = PreTrainedTokenizerFast.from_pretrained('gogamza/kobart-base-v2')
model = BartModel.from_pretrained('gogamza/kobart-base-v2')

✨ 主要特性

基于 BART 架构：BART（Bidirectional and Auto-Regressive Transformers）以 autoencoder 的形式进行训练，通过向输入文本的一部分添加噪声并将其恢复为原文。
韩语训练：使用 Text Infilling 噪声函数，在超过 40GB 的韩语文本上进行训练。
扩展词汇：vocab 大小为 30,000，添加了常用的表情符号和 emoticon，提高了对这些标记的识别能力。

📦 安装指南

文档未提及具体安装步骤，可参考模型的 GitHub 仓库获取相关信息。

💻 使用示例

基础用法

from transformers import PreTrainedTokenizerFast, BartModel

tokenizer = PreTrainedTokenizerFast.from_pretrained('gogamza/kobart-base-v2')
model = BartModel.from_pretrained('gogamza/kobart-base-v2')

📚 详细文档

模型详情

开发者：待补充更多信息
共享者：Heewon(Haven) Jeon
模型类型：特征提取
语言：韩语
许可证：MIT
父模型：BART
更多信息资源：
- GitHub 仓库
- 模型演示空间

使用场景

直接使用

该模型可用于特征提取任务。

下游使用

待补充更多信息。

超出范围使用

该模型不应被用于故意为人们创造敌对或排斥的环境。

偏差、风险和局限性

大量研究探讨了语言模型的偏差和公平性问题（例如，Sheng et al. (2021) 和 Bender et al. (2021)）。模型生成的预测可能包含对受保护类别、身份特征以及敏感、社会和职业群体的令人不安和有害的刻板印象。

建议

用户（直接用户和下游用户）应了解模型的风险、偏差和局限性。待补充更多建议信息。

训练详情

训练数据

数据	句子数量
韩语维基百科	500 万
其他语料库	2.7 亿

除韩语维基百科外，新闻、书籍、 모두의 말뭉치 v1.0（对话、新闻等）、青瓦台国民请愿等各种数据也用于模型训练。

训练过程

分词器

使用 tokenizers 包中的 Character BPE tokenizer 进行训练。

速度、大小、时间

模型	参数数量	类型	层数	头数	ffn_dim	隐藏维度
`KoBART-base`	1.24 亿	编码器	6	16	3072	768
		解码器	6	16	3072	768

评估

测试数据、因素和指标

待补充更多信息。

结果

NSMC

准确率：0.901

模型作者还在 GitHub 仓库中指出：

	NSMC（准确率）	KorSTS（斯皮尔曼相关系数）	Question Pair（准确率）
KoBART-base	90.24	81.66	94.34

模型检查

待补充更多信息。

环境影响

可以使用 Lacoste et al. (2019) 中提出的机器学习影响计算器来估算碳排放。

硬件类型：待补充更多信息
使用时长：待补充更多信息
云服务提供商：待补充更多信息
计算区域：待补充更多信息
碳排放：待补充更多信息

技术规格（可选）

模型架构和目标

待补充更多信息。

计算基础设施

硬件

待补充更多信息。

软件

待补充更多信息。

引用

BibTeX

待补充更多信息。

术语表（可选）

待补充更多信息。

更多信息（可选）

待补充更多信息。

模型卡片作者（可选）

Heewon(Haven) Jeon 与 Ezi Ozoani 和 Hugging Face 团队合作。

模型卡片联系方式

模型作者在 GitHub 仓库中指出：KoBART 相关问题请提交到这里。

📄 许可证

该模型采用 MIT 许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

简体中文

© 2025AIbase 备案号：闽ICP备08105208号-24