G

Gpt2 Small Japanese Char

由 ku-nlp 开发
这是一个日语字符级的GPT-2小型语言模型,拥有9000万个参数,专门针对日语文本进行了优化。
下载量 6,587
发布时间 : 4/18/2023

模型简介

该模型基于GPT-2架构,专门为处理日语文本设计,采用字符级词汇表,适用于日语文本生成和特征提取任务。

模型特点

字符级词汇表
使用大小为6K的字符级词汇表,采用字节级字节对编码(BPE),确保合并操作不超出字符边界。
大规模预训练数据
在171GB的日语文本数据上预训练,包括日语维基百科、CC-100和OSCAR的日语部分。
特殊空格处理
预处理中消除了空白字符(U+0020),需使用U+3000(表意空格)替代。

模型能力

日语文本生成
文本特征提取

使用案例

文本生成
日语内容创作
生成连贯的日语文本,适用于自动写作、内容填充等场景。
生成多样化的日语文本序列,如示例所示。
语言特征分析
日语文本特征提取
提取日语文本的深层特征,用于下游NLP任务。
AIbase
智启未来,您的人工智能解决方案智库
简体中文