LiLT-Document-QA开源模型 - 免费部署处理英文文档问答任务

首页

Lilt Document QA

由 TusharGoel 开发

LiLT是一个基于文档视觉问答（DocVQA）任务的预训练模型，专门用于处理英文文档中的问答任务。

图像生成文本

Transformers

英语开源协议:MIT #文档问答 #英文文档处理 #OCR增强理解

下载量 80

发布时间 : 10/15/2023

模型简介

LiLT模型通过结合文本和布局信息，能够理解文档结构并回答相关问题，特别适用于表单、发票等结构化文档的问答场景。

模型特点

多模态理解

同时处理文本内容和文档布局信息，增强对结构化文档的理解能力

文档结构感知

通过边界框信息捕捉文档元素的空间关系

英文文档优化

专门针对英文文档问答任务进行微调

模型能力

文档问答

结构化信息提取

表单理解

使用案例

文档处理

表单信息提取

从结构化表单中提取特定字段信息

可准确识别表单中的关键信息如许可证编号、日期等

发票处理

回答关于发票内容的特定问题

可定位发票中的金额、供应商等信息

🚀 LiLT文档问答模型

LiLT模型是用于文档问答任务的模型，本模型在英文DocVQA数据集上进行了微调，能有效处理文档相关的问答需求。

🚀 快速开始

你可以按照以下步骤使用LiLT模型进行文档问答：

from transformers import AutoTokenizer, AutoModelForQuestionAnswering
from datasets import load_dataset

model_checkpoint = "TusharGoel/LiLT-Document-QA"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint, add_prefix_space=True)
model_predict = AutoModelForQuestionAnswering.from_pretrained(model_checkpoint)

model_predict.eval()
dataset = load_dataset("nielsr/funsd", split="train")
example = dataset[0]
print(example)

question = "What is the Licensee Number?"
print(question)

words = example["words"]
boxes = example["bboxes"]

encoding = tokenizer(question, words, boxes = boxes, return_token_type_ids=True, return_tensors="pt")

word_ids = encoding.word_ids(0)
outputs = model_predict(**encoding)

loss = outputs.loss
start_scores = outputs.start_logits
end_scores = outputs.end_logits

start, end = word_ids[start_scores.argmax(-1).item()], word_ids[end_scores.argmax(-1).item()]
# print(start, end)
print(" ".join(words[start : end + 1]))

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForQuestionAnswering
from datasets import load_dataset

model_checkpoint = "TusharGoel/LiLT-Document-QA"
tokenizer = AutoTokenizer.from_pretrained(model_checkpoint, add_prefix_space=True)
model_predict = AutoModelForQuestionAnswering.from_pretrained(model_checkpoint)

model_predict.eval()
dataset = load_dataset("nielsr/funsd", split="train")
example = dataset[0]
print(example)

question = "What is the Licensee Number?"
print(question)

words = example["words"]
boxes = example["bboxes"]

encoding = tokenizer(question, words, boxes = boxes, return_token_type_ids=True, return_tensors="pt")

word_ids = encoding.word_ids(0)
outputs = model_predict(**encoding)

loss = outputs.loss
start_scores = outputs.start_logits
end_scores = outputs.end_logits

start, end = word_ids[start_scores.argmax(-1).item()], word_ids[end_scores.argmax(-1).item()]
# print(start, end)
print(" ".join(words[start : end + 1]))