Gujarati-XLM-R-Base开源模型 - 免费部署助力古吉拉特语自然语言处理

首页

Gujarati XLM R Base

由 ashwani-tanwar 开发

该模型基于XLM-RoBERTa的基础变体，使用古吉拉特语和OSCAR单语数据集进行微调，适用于古吉拉特语的自然语言处理任务。

大型语言模型

Transformers

其他#古吉拉特语处理 #掩码语言建模 #多语言迁移学习

下载量 22

发布时间 : 3/2/2022

模型简介

该模型通过迁移学习在古吉拉特语上微调XLM-R，可用于生成上下文相关词表示、预测缺失单词及进一步微调其他NLP任务。

模型特点

迁移学习

基于预训练的XLM-R模型进行微调，利用其父模型的知识提升性能。

多样化数据集

使用OSCAR语料库的古吉拉特语数据集，包含多种语言的不同数据，性能优于同质数据集。

模型能力

生成古吉拉特语单词的上下文相关词表示

预测古吉拉特语句子中的缺失单词

支持古吉拉特语的自然语言处理任务微调

使用案例

自然语言处理

缺失单词预测

预测古吉拉特语句子中的缺失单词，如示例中的'શહેર'（城市）。

预测准确率高达94.6%

词表示生成

生成古吉拉特语单词的上下文相关词表示，可用于下游任务。

🚀 古吉拉特语-XLM-R基础模型

本模型基于XLM-RoBERTa（XLM-R）的基础版本，使用OSCAR单语数据集，针对古吉拉特语进行了微调。我们采用了与预训练XLM-R相同的掩码语言建模（MLM）目标。由于该模型是在预训练的XLM-R基础上构建的，因此我们利用了其母模型的知识，运用了迁移学习技术。

✨ 主要特性

可用于使用古吉拉特语的不同自然语言处理（NLP）任务的进一步微调。
能够为古吉拉特语单词生成上下文相关的词表示。
适用于领域自适应。
可用于预测古吉拉特语句子中缺失的单词。

📦 安装指南

文档未提及安装步骤，故跳过此章节。

💻 使用示例

基础用法

使用该模型预测缺失的单词：

from transformers import pipeline
unmasker = pipeline('fill-mask', model='ashwani-tanwar/Gujarati-XLM-R-Base')
pred_word = unmasker("અમદાવાદ એ ગુજરાતનું એક <mask> છે.")
print(pred_word)

输出结果：

[{'sequence': '<s> અમદાવાદ એ ગુજરાતનું એક શહેર છે.</s>', 'score': 0.9463568329811096, 'token': 85227, 'token_str': '▁શહેર'}, 
{'sequence': '<s> અમદાવાદ એ ગુજરાતનું એક ગામ છે.</s>', 'score': 0.013311690650880337, 'token': 66346, 'token_str': '▁ગામ'}, 
{'sequence': '<s> અમદાવાદ એ ગુજરાતનું એકનગર છે.</s>', 'score': 0.012945962138473988, 'token': 69702, 'token_str': 'નગર'}, 
{'sequence': '<s> અમદાવાદ એ ગુજરાતનું એક સ્થળ છે.</s>', 'score': 0.0045941537246108055, 'token': 135436, 'token_str': '▁સ્થળ'}, 
{'sequence': '<s> અમદાવાદ એ ગુજરાતનું એક મહત્વ છે.</s>', 'score': 0.00402021361514926, 'token': 126763, 'token_str': '▁મહત્વ'}]

高级用法

使用该模型生成上下文相关的词表示：

from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("ashwani-tanwar/Gujarati-XLM-R-Base")
model = AutoModel.from_pretrained("ashwani-tanwar/Gujarati-XLM-R-Base")
sentence = "અમદાવાદ એ ગુજરાતનું એક શહેર છે."
encoded_sentence = tokenizer(sentence, return_tensors='pt')
context_word_rep = model(**encoded_sentence)