longformer-base-4096-finetuned-squadv2开源问答模型

首页

Longformer Base 4096 Finetuned Squadv2

由 mrm8488 开发

该模型是基于Longformer架构，在SQuAD v2问答数据集上微调的问答系统，支持处理长文本序列（最长4096个token）。

问答系统

Transformers

英语#长文本问答 #SQuADv2微调 #4096上下文窗口

下载量 190

发布时间 : 3/2/2022

模型简介

Longformer-base-4096是一个专为长文档设计的Transformer模型，基于RoBERTa初始化，并在SQuAD v2数据集上进行了问答任务微调。它结合了滑动窗口局部注意力和全局注意力机制，适合处理长文档问答任务。

模型特点

长文本处理能力

支持最长4096个token的序列，适合处理长文档问答任务

混合注意力机制

结合滑动窗口局部注意力和全局注意力，在保持效率的同时捕捉长距离依赖关系

高精度问答

在SQuAD v2验证集上达到79.92%的精确匹配率和83.35%的F1分数

模型能力

长文本问答

开放域问答

无答案检测

使用案例

文档问答系统

法律文档分析

从长法律文档中提取特定问题的答案

研究报告问答

回答关于学术论文或技术报告的问题

客户支持

FAQ自动回答

从长产品文档中回答客户问题

🚀 Longformer-base-4096在SQuAD v2上微调

本项目是将 Longformer-base-4096模型在 SQuAD v2 数据集上进行微调，以用于**问答（Q&A）**下游任务。

✨ 主要特性

适用于长文档：Longformer 是一种用于处理长文档的Transformer模型。longformer-base-4096 是一个类似BERT的模型，它基于RoBERTa的检查点，并在长文档上进行了掩码语言模型（MLM）预训练，支持长度达4096的序列。
独特的注意力机制：Longformer结合了滑动窗口（局部）注意力和全局注意力。全局注意力可根据任务进行用户配置，使模型能够学习特定任务的表示。

📦 安装指南

若要从 datasets 加载数据集，可按以下步骤操作：

!pip install datasets
from datasets import load_dataset
dataset = load_dataset('squad_v2')

💻 使用示例

基础用法

以下是使用该模型进行问答任务的示例代码：

import torch
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
ckpt = "mrm8488/longformer-base-4096-finetuned-squadv2"
tokenizer = AutoTokenizer.from_pretrained(ckpt)
model = AutoModelForQuestionAnswering.from_pretrained(ckpt)

text = "Huggingface has democratized NLP. Huge thanks to Huggingface for this."
question = "What has Huggingface done ?"
encoding = tokenizer(question, text, return_tensors="pt")
input_ids = encoding["input_ids"]

# default is local attention everywhere
# the forward method will automatically set global attention on question tokens
attention_mask = encoding["attention_mask"]

start_scores, end_scores = model(input_ids, attention_mask=attention_mask)
all_tokens = tokenizer.convert_ids_to_tokens(input_ids[0].tolist())

answer_tokens = all_tokens[torch.argmax(start_scores) :torch.argmax(end_scores)+1]
answer = tokenizer.decode(tokenizer.convert_tokens_to_ids(answer_tokens))

# output => democratized NLP

高级用法

使用HF pipleine 进行问答任务：

from transformers import AutoTokenizer, AutoModelForQuestionAnswering, pipeline

ckpt = "mrm8488/longformer-base-4096-finetuned-squadv2"
tokenizer = AutoTokenizer.from_pretrained(ckpt)
model = AutoModelForQuestionAnswering.from_pretrained(ckpt)

qa = pipeline("question-answering", model=model, tokenizer=tokenizer)

text = "Huggingface has democratized NLP. Huge thanks to Huggingface for this."
question = "What has Huggingface done?"

qa({"question": question, "context": text})

如果在给定的上下文中询问不存在的内容，无答案的输出将是 <s>。