albert-base-japanese-v1开源日语模型 - 免费支持日语文本掩码填充处理

首页

Albert Base Japanese V1

由 ken11 开发

这是一个预训练的日语ALBERT模型，主要用于填充掩码任务，支持日语文本处理。

大型语言模型

Transformers

日语开源协议:MIT #日语填充掩码 #ALBERT轻量架构 #维基百科训练

下载量 609

发布时间 : 3/2/2022

模型简介

该模型是基于ALBERT架构的日语预训练模型，设计用于各种自然语言处理任务的微调，特别擅长填充掩码任务。

模型特点

日语专用

专门针对日语文本优化的预训练模型

ALBERT架构

采用轻量级的ALBERT架构，参数效率高

Sentencepiece分词

使用Sentencepiece作为分词器，处理日语文本效果良好

模型能力

日语文本理解

填充掩码预测

自然语言处理任务微调

使用案例

学术研究

学科领域预测

预测学术研究中涉及的学科领域

能准确预测如'心理学'、'数学'等学科名称

文本补全

句子补全

自动补全日语句子中的缺失部分

能根据上下文提供合理的补全建议

🚀 albert-base-japanese-v1

这是一个预训练好的日语ALBERT模型，可用于多种自然语言处理任务。

🚀 快速开始

此模型为预训练模型，主要用于针对各类任务进行微调后使用。

✨ 主要特性

语言支持：支持日语。
任务类型：适用于填充掩码等自然语言处理任务。

📦 安装指南

文档未提及安装相关内容，故跳过此章节。

💻 使用示例

基础用法

微调

此模型是预训练模型，基本上是为各种任务进行微调后使用。

填充掩码

此模型在分词器中使用了Sentencepiece。由于存在[MASK]标记后混入多余标记的问题（详细问题），使用时需要按以下方式处理。

for PyTorch

from transformers import (
    AlbertForMaskedLM, AlbertTokenizerFast
)
import torch


tokenizer = AlbertTokenizerFast.from_pretrained("ken11/albert-base-japanese-v1")
model = AlbertForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1")

text = "大学で[MASK]の研究をしています"
tokenized_text = tokenizer.tokenize(text)
del tokenized_text[tokenized_text.index(tokenizer.mask_token) + 1]

input_ids = [tokenizer.cls_token_id]
input_ids.extend(tokenizer.convert_tokens_to_ids(tokenized_text))
input_ids.append(tokenizer.sep_token_id)

inputs = {"input_ids": [input_ids], "token_type_ids": [[0]*len(input_ids)], "attention_mask": [[1]*len(input_ids)]}
batch = {k: torch.tensor(v, dtype=torch.int64) for k, v in inputs.items()}
output = model(**batch)[0]
_, result = output[0, input_ids.index(tokenizer.mask_token_id)].topk(5)

print(tokenizer.convert_ids_to_tokens(result.tolist()))
# ['英語', '心理学', '数学', '医学', '日本語']

for TensorFlow

from transformers import (
    TFAlbertForMaskedLM, AlbertTokenizerFast
)
import tensorflow as tf


tokenizer = AlbertTokenizerFast.from_pretrained("ken11/albert-base-japanese-v1")
model = TFAlbertForMaskedLM.from_pretrained("ken11/albert-base-japanese-v1")

text = "大学で[MASK]の研究をしています"
tokenized_text = tokenizer.tokenize(text)
del tokenized_text[tokenized_text.index(tokenizer.mask_token) + 1]

input_ids = [tokenizer.cls_token_id]
input_ids.extend(tokenizer.convert_tokens_to_ids(tokenized_text))
input_ids.append(tokenizer.sep_token_id)

inputs = {"input_ids": [input_ids], "token_type_ids": [[0]*len(input_ids)], "attention_mask": [[1]*len(input_ids)]}
batch = {k: tf.convert_to_tensor(v, dtype=tf.int32) for k, v in inputs.items()}
output = model(**batch)[0]
result = tf.math.top_k(output[0, input_ids.index(tokenizer.mask_token_id)], k=5)

print(tokenizer.convert_ids_to_tokens(result.indices.numpy()))
# ['英語', '心理学', '数学', '医学', '日本語']