xlm-roberta-large-fa-qa开源波斯语问答模型

首页

Xlm Roberta Large Fa Qa

由 SajjadAyoubi 开发

基于RoBERTa架构的波斯语问答模型，针对波斯语问答任务进行了优化

问答系统

Transformers

#波斯语问答 #无答案检测 #RoBERTa架构

下载量 141

发布时间 : 3/2/2022

模型简介

该模型是一个基于RoBERTa架构的大型波斯语问答模型，专门用于处理波斯语的问答任务。它能够从给定的文本中提取问题的答案，支持手动调用和快速管道调用两种模式。

模型特点

波斯语优化

专门针对波斯语进行了优化，能够更好地理解和处理波斯语文本。

支持无答案判断

在手动调用模式下，支持判断问题是否在文本中没有答案。

高性能

模型在波斯语问答任务上表现出色，能够准确提取文本中的答案。

模型能力

波斯语文本理解

问答提取

无答案判断

使用案例

教育

波斯语学习辅助

帮助学生从波斯语文本中快速找到问题的答案。

提高学习效率，快速获取知识。

客户服务

自动问答系统

用于波斯语客户服务中的自动问答，快速响应客户问题。

减少人工客服负担，提高响应速度。

🚀 如何使用Transformer模型

本项目提供了使用Transformer模型进行问答任务的详细指南，涵盖了安装依赖、使用管道和手动方法等方面，能帮助你快速上手并完成问答任务。

🚀 快速开始

📦 安装指南

Transformer模型需要 transformers 和 sentencepiece 库，这两个库都可以使用 pip 进行安装。

pip install transformers sentencepiece

💻 使用示例

基础用法 - 管道方法 🚀

如果你对Transformer不太熟悉，可以使用管道方法。需要注意的是，管道方法对于问题不能给出“无答案”的结果。

from transformers import pipeline

model_name = "SajjadAyoubi/lm-roberta-large-fa-qa"
qa_pipeline = pipeline("question-answering", model=model_name, tokenizer=model_name)

text = "سلام من سجاد ایوبی هستم ۲۰ سالمه و به پردازش زبان طبیعی علاقه دارم"
questions = ["اسمم چیه؟", "چند سالمه؟", "به چی علاقه دارم؟"]

for question in questions:
    print(qa_pipeline({"context": text, "question": question}))

>>> {'score': 0.4839823544025421, 'start': 8, 'end': 18, 'answer': 'سجاد ایوبی'}
>>> {'score': 0.3747948706150055, 'start': 24, 'end': 32, 'answer': '۲۰ سالمه'}
>>> {'score': 0.5945395827293396, 'start': 38, 'end': 55, 'answer': 'پردازش زبان طبیعی'}

高级用法 - 手动方法 🔥

使用手动方法，不仅可以实现“无答案”的结果，还能获得更好的性能。

PyTorch 实现

from transformers import AutoTokenizer, AutoModelForQuestionAnswering
from src.utils import AnswerPredictor

model_name = "SajjadAyoubi/lm-roberta-large-fa-qa"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForQuestionAnswering.from_pretrained(model_name)

text = "سلام من سجاد ایوبی هستم ۲۰ سالمه و به پردازش زبان طبیعی علاقه دارم"
questions = ["اسمم چیه؟", "چند سالمه؟", "به چی علاقه دارم؟"]

# 这个类来自 src/utils.py，你可以进一步了解它
predictor = AnswerPredictor(model, tokenizer, device="cpu", n_best=10)
preds = predictor(questions, [text] * 3, batch_size=3)

for k, v in preds.items():
    print(v)

运行上述代码会产生如下输出：

100%|██████████| 1/1 [00:00<00:00,  3.56it/s]
{'score': 8.040637016296387, 'text': 'سجاد ایوبی'}
{'score': 9.901972770690918, 'text': '۲۰'}
{'score': 12.117212295532227, 'text': 'پردازش زبان طبیعی'}

TensorFlow 2.X 实现

from transformers import AutoTokenizer, TFAutoModelForQuestionAnswering
from src.utils import TFAnswerPredictor

model_name = "SajjadAyoubi/lm-roberta-large-fa-qa"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = TFAutoModelForQuestionAnswering.from_pretrained(model_name)

text = "سلام من سجاد ایوبی هستم ۲۰ سالمه و به پردازش زبان طبیعی علاقه دارم"
questions = ["اسمم چیه؟", "چند سالمه؟", "به چی علاقه دارم؟"]

# 这个类来自 src/utils.py，你可以进一步了解它
predictor = TFAnswerPredictor(model, tokenizer, n_best=10)
preds = predictor(questions, [text] * 3, batch_size=3)

for k, v in preds.items():
    print(v)

运行上述代码会产生如下输出：

100%|██████████| 1/1 [00:00<00:00,  3.56it/s]
{'score': 8.040637016296387, 'text': 'سجاد ایوبی'}
{'score': 9.901972770690918, 'text': '۲۰'}
{'score': 12.117212295532227, 'text': 'پردازش زبان طبیعی'}

你也可以通过 Google Colab 上的 HowToUse iPython Notebook 查看完整的演示。