scibert_scivocab_uncased_squad_v2开源模型 - 支持科学文献内容理解与问答

首页

Scibert Scivocab Uncased Squad V2

由 ktrapeznikov 开发

基于BERT架构的科学领域预训练语言模型，使用科学文献词汇表进行训练

问答系统 #科学问答 #SQuAD微调 #无答案检测

下载量 20

发布时间 : 3/2/2022

模型简介

SciBERT是一个专门针对科学文献预训练的BERT模型，使用科学领域的词汇表(SciVocab)进行训练，适合处理科学文本相关的自然语言处理任务

模型特点

科学领域优化

使用科学文献专用词汇表(SciVocab)训练，对科学文本处理有更好表现

SQuAD V2微调

在SQuAD V2问答数据集上微调，支持判断段落是否包含答案的能力

高效训练

支持混合精度(FP16)训练，在4块RTX 2080 Ti上实现高效训练

模型能力

科学文本理解

问答系统

无答案检测

文本跨度预测

使用案例

学术研究

科学文献问答系统

从科学论文中自动提取问题答案

在SQuAD V2开发集上达到75.08的exact匹配分数

研究助手

帮助研究人员快速查找文献中的特定信息

教育技术

智能学习系统

为学生提供基于科学教材的自动问答功能

🚀 科学问答模型

本项目基于预训练模型进行微调，构建了一个适用于科学领域的问答模型。该模型在特定数据集上进行训练，能够有效处理科学文献相关的问答任务，为科学研究和知识探索提供了有力支持。

🚀 快速开始

本模型基于预训练模型 allenai/scibert_scivocab_uncased，在 SQuAD V2 数据集上进行微调。微调使用了 run_squad.py 脚本。

📦 安装指南

训练环境

在 4 块 NVIDIA GeForce RTX 2080 Ti 11Gb GPU 上进行训练。

训练命令

BASE_MODEL=allenai/scibert_scivocab_uncased
python run_squad.py \
  --version_2_with_negative \
  --model_type albert \
  --model_name_or_path $BASE_MODEL \
  --output_dir $OUTPUT_MODEL \
  --do_eval \
  --do_lower_case \
  --train_file $SQUAD_DIR/train-v2.0.json \
  --predict_file $SQUAD_DIR/dev-v2.0.json \
  --per_gpu_train_batch_size 18 \
  --per_gpu_eval_batch_size 64 \
  --learning_rate 3e-5 \
  --num_train_epochs 3.0 \
  --max_seq_length 384 \
  --doc_stride 128 \
  --save_steps 2000 \
  --threads 24 \
  --warmup_steps 550 \
  --gradient_accumulation_steps 1 \
  --fp16 \
  --logging_steps 50 \
  --do_train

📚 详细文档

评估结果

在开发集上进行评估，未进行最佳阈值搜索。

属性	详情
精确匹配准确率（exact）	75.07790785816559
F1 分数（f1）	78.47735207283013
总样本数（total）	11873.0
有答案样本的精确匹配准确率（HasAns_exact）	70.76585695006747
有答案样本的 F1 分数（HasAns_f1）	77.57449412292718
有答案样本数（HasAns_total）	5928.0
无答案样本的精确匹配准确率（NoAns_exact）	79.37762825904122
无答案样本的 F1 分数（NoAns_f1）	79.37762825904122
无答案样本数（NoAns_total）	5945.0
最佳精确匹配准确率（best_exact）	75.08633032931863
最佳精确匹配阈值（best_exact_thresh）	0.0
最佳 F1 分数（best_f1）	78.48577454398324
最佳 F1 阈值（best_f1_thresh）	0.0

💻 使用示例

基础用法

可参考 huggingface 文档。在 SQuAD V2 上训练的模型可以判断段落是否包含答案：

start_scores, end_scores = model(input_ids) 
span_scores = start_scores.softmax(dim=1).log()[:,:,None] + end_scores.softmax(dim=1).log()[:,None,:]
ignore_score = span_scores[:,0,0] #no answer scores