albert-base-japanese-v1开源日语模型 - 搭配日语分词器便捷处理日语文本

首页

Albert Base Japanese V1 With Japanese Tokenizer

由 ken11 开发

这是一个经过日语预训练的ALBERT模型，使用了BertJapaneseTokenizer作为分词器，处理日语文本更加便捷。

大型语言模型

Transformers

日语开源协议:MIT #日语掩码填充 #ALBERT架构 #维基百科预训练

下载量 44

发布时间 : 4/20/2022

模型简介

该模型是基于ALBERT架构的日语预训练模型，主要用于日语文本的填充掩码任务，经过微调后可适用于各种自然语言处理任务。

模型特点

日语优化分词器

使用BertJapaneseTokenizer作为分词器，相比原版模型对日语文本处理更加便捷高效。

轻量级架构

基于ALBERT架构，参数共享机制使得模型更加轻量高效。

易于微调

预训练模型设计用于各种下游任务的微调，适应性强。

模型能力

日语文本理解

填充掩码预测

文本特征提取

使用案例

文本补全

日语谚语补全

补全日语谚语中的缺失部分，如'明日は明日の[MASK]が吹く'

可预测出'風'等合适的补全词

自然语言处理

下游任务微调

可用于文本分类、命名实体识别等NLP任务的微调基础模型

🚀 albert-base-japanese-v1-with-japanese

这是一个日语预训练的ALBERT模型。该模型在分词时使用了BertJapaneseTokenizer类，相较于albert-base-japanese-v1，分词处理更加便捷。

🚀 快速开始

✨ 主要特性

基于日本语进行预训练，适用于多种日语自然语言处理任务。
使用BertJapaneseTokenizer类进行分词，简化了分词流程。

📦 安装指南

文档未提及安装步骤，暂不展示。

💻 使用示例

基础用法

微调

此模型为预训练模型，基本上可针对各种任务进行微调后使用。

掩码填充任务

for PyTorch

from transformers import (
    AutoModelForMaskedLM, AutoTokenizer
)


tokenizer = AutoTokenizer.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
model = AutoModelForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")

text = "明日は明日の[MASK]が吹く"
tokens = tokenizer(text, return_tensors="pt")
mask_index = tokens["input_ids"][0].tolist().index(tokenizer.mask_token_id)
predict = model(**tokens)[0]
_, result = predict[0, mask_index].topk(5)

print(tokenizer.convert_ids_to_tokens(result.tolist()))

for TensorFlow

from transformers import (
    TFAutoModelForMaskedLM, AutoTokenizer
)
import tensorflow as tf


tokenizer = AutoTokenizer.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")
model = TFAutoModelForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1-with-japanese-tokenizer")

text = "明日は明日の[MASK]が吹く"
tokens = tokenizer(text, return_tensors="tf")
mask_index = tokens["input_ids"][0].numpy().tolist().index(tokenizer.mask_token_id)
predict = model(**tokens)[0]
result = tf.math.top_k(predict[0, mask_index], k=5)

print(tokenizer.convert_ids_to_tokens(result.indices.numpy()))