camembert-squadFR-fquad-piaf-answer-extraction开源模型

首页

Camembert Squadfr Fquad Piaf Answer Extraction

由 lincoln 开发

该模型基于CamemBERT-base微调，专门用于法语文本中的答案抽取任务，在SquadFR、FQuAD和PIAF数据集上训练。

问答系统

Transformers

法语开源协议:MIT #法语问答系统 #答案标记识别 #上下文理解

下载量 16

发布时间 : 3/2/2022

模型简介

这是一个标记分类模型，用于识别法语文本中可能作为问题答案的标记序列。模型通过标注'ANS'标签来定位答案位置。

模型特点

法语专业优化

专门针对法语文本优化的答案抽取模型，在多个法语问答数据集上微调

标记级分类

采用标记分类方法精确定位答案在文本中的起始和结束位置

多数据集训练

结合SquadFR、FQuAD和PIAF三个法语问答数据集进行训练

模型能力

法语文本处理

答案位置识别

标记序列分类

使用案例

问答系统

法语智能客服

从客服文档中自动抽取问题答案

可识别文档中的相关答案片段

教育辅助

帮助学生从教材中快速找到问题答案

精确定位教材中的知识点位置

信息检索

文档分析

从长文档中提取关键信息片段

减少人工阅读全文的时间成本

🚀 答案提取模型

本模型基于 camembert-base 模型进行微调，用于标记分类任务。其目标是识别可能作为问题答案的标记序列。

🚀 快速开始

安装依赖

确保你已经安装了 transformers 库，可以使用以下命令进行安装：

pip install transformers

运行示例代码

以下是使用该模型的示例代码：

from transformers import AutoTokenizer, AutoModelForTokenClassification
import numpy as np

model_name = "lincoln/camembert-squadFR-fquad-piaf-answer-extraction"

loaded_tokenizer = AutoTokenizer.from_pretrained(model_name)
loaded_model = AutoModelForTokenClassification.from_pretrained(model_name)
text = "La science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus,\
    des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées de nombreuses données structurelles et non structurées.\
        Elle est souvent associée aux données massives et à l'analyse des données."

inputs = loaded_tokenizer(text, return_tensors="pt", return_offsets_mapping=True)
outputs = loaded_model(inputs.input_ids).logits
probs = 1 / (1 + np.exp(-outputs.detach().numpy()))
probs[:, :, 1][0] = np.convolve(probs[:, :, 1][0], np.ones(2), 'same') / 2

sentences = loaded_tokenizer.tokenize(text, add_special_tokens=False)
prob_answer_tokens = probs[:, 1:-1, 1].flatten().tolist()
offset_start_mapping = inputs.offset_mapping[:, 1:-1, 0].flatten().tolist()
offset_end_mapping = inputs.offset_mapping[:, 1:-1, 1].flatten().tolist()
threshold = 0.4

entities = []
for ix, (token, prob_ans, offset_start, offset_end) in enumerate(zip(sentences, prob_answer_tokens, offset_start_mapping, offset_end_mapping)):
    entities.append({
        'entity': 'ANS' if prob_ans > threshold else 'O',
        'score': prob_ans, 
        'index': ix,
        'word': token,
        'start': offset_start,
        'end': offset_end
    })

for p in entities:
    print(p)

✨ 主要特性

基于 camembert-base 模型进行微调，适用于法语问答数据。
可识别文本中可能作为问题答案的标记序列。

📦 安装指南

要使用此模型，你需要安装 transformers 库：

pip install transformers

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForTokenClassification
import numpy as np

model_name = "lincoln/camembert-squadFR-fquad-piaf-answer-extraction"

loaded_tokenizer = AutoTokenizer.from_pretrained(model_name)
loaded_model = AutoModelForTokenClassification.from_pretrained(model_name)
text = "La science des données est un domaine interdisciplinaire qui utilise des méthodes, des processus,\
    des algorithmes et des systèmes scientifiques pour extraire des connaissances et des idées de nombreuses données structurelles et non structurées.\
        Elle est souvent associée aux données massives et à l'analyse des données."

inputs = loaded_tokenizer(text, return_tensors="pt", return_offsets_mapping=True)
outputs = loaded_model(inputs.input_ids).logits
probs = 1 / (1 + np.exp(-outputs.detach().numpy()))
probs[:, :, 1][0] = np.convolve(probs[:, :, 1][0], np.ones(2), 'same') / 2

sentences = loaded_tokenizer.tokenize(text, add_special_tokens=False)
prob_answer_tokens = probs[:, 1:-1, 1].flatten().tolist()
offset_start_mapping = inputs.offset_mapping[:, 1:-1, 0].flatten().tolist()
offset_end_mapping = inputs.offset_mapping[:, 1:-1, 1].flatten().tolist()
threshold = 0.4

entities = []
for ix, (token, prob_ans, offset_start, offset_end) in enumerate(zip(sentences, prob_answer_tokens, offset_start_mapping, offset_end_mapping)):
    entities.append({
        'entity': 'ANS' if prob_ans > threshold else 'O',
        'score': prob_ans, 
        'index': ix,
        'word': token,
        'start': offset_start,
        'end': offset_end
    })

for p in entities:
    print(p)