语言: 英语
缩略图:
许可证: MIT
标签:
- 问答系统
- RoBERTa
- roberta-base
数据集:
- squad
评估指标:
- squad
小部件示例:
- 文本: "亚马逊雨林在英语中还有哪个别称?"
上下文: "亚马逊雨林(葡萄牙语:Floresta Amazônica或Amazônia;西班牙语:Selva Amazónica、Amazonía或通常称Amazonia;法语:Forêt amazonienne;荷兰语:Amazoneregenwoud),在英语中也被称为Amazonia或亚马逊丛林,是一片覆盖南美洲亚马逊盆地大部分地区的湿润阔叶林。该盆地面积达7,000,000平方公里(2,700,000平方英里),其中5,500,000平方公里(2,100,000平方英里)被雨林覆盖。这一区域涵盖九个国家的领土。森林主要分布在巴西,占雨林总面积的60%,其次是秘鲁占13%,哥伦比亚占10%,其余少量分布在委内瑞拉、厄瓜多尔、玻利维亚、圭亚那、苏里南和法属圭亚那。四个国家的州或省名称中包含'Amazonas'。亚马逊雨林占全球现存雨林面积的一半以上,是世界上最大且生物多样性最丰富的热带雨林带,估计有3900亿棵树木,分属16,000个物种。"
- 文本: "该盆地内有多少平方公里的雨林覆盖面积?"
上下文: "亚马逊雨林(葡萄牙语:Floresta Amazônica或Amazônia;西班牙语:Selva Amazónica、Amazonía或通常称Amazonia;法语:Forêt amazonienne;荷兰语:Amazoneregenwoud),在英语中也被称为Amazonia或亚马逊丛林,是一片覆盖南美洲亚马逊盆地大部分地区的湿润阔叶林。该盆地面积达7,000,000平方公里(2,700,000平方英里),其中5,500,000平方公里(2,100,000平方英里)被雨林覆盖。这一区域涵盖九个国家的领土。森林主要分布在巴西,占雨林总面积的60%,其次是秘鲁占13%,哥伦比亚占10%,其余少量分布在委内瑞拉、厄瓜多尔、玻利维亚、圭亚那、苏里南和法属圭亚那。四个国家的州或省名称中包含'Amazonas'。亚马逊雨林占全球现存雨林面积的一半以上,是世界上最大且生物多样性最丰富的热带雨林带,估计有3900亿棵树木,分属16,000个物种。"
基于SQuAD v1微调的RoBERTa-base模型
本模型是从HuggingFace的RoBERTa基础检查点出发,在SQuAD1.1数据集上微调而成。该模型区分大小写:例如english和English会被视为不同词汇。
详细数据
数据集 |
划分 |
样本数量 |
SQuAD1.1 |
训练集 |
96.8K |
SQuAD1.1 |
验证集 |
11.8K |
微调配置
-
Python版本: 3.7.5
-
机器配置:
CPU: Intel(R) Core(TM) i7-6800K CPU @ 3.40GHz
内存: 32 GiB
GPU: 2块GeForce GTX 1070,每块8GiB显存
显卡驱动: 418.87.01, CUDA: 10.1
-
运行脚本:
# 安装https://github.com/huggingface/transformers后执行
cd examples/question-answering
mkdir -p data
wget -O data/train-v1.1.json https://rajpurkar.github.io/SQuAD-explorer/dataset/train-v1.1.json
wget -O data/dev-v1.1.json https://rajpurkar.github.io/SQuAD-explorer/dataset/dev-v1.1.json
python run_energy_squad.py \
--model_type roberta \
--model_name_or_path roberta-base \
--do_train \
--do_eval \
--train_file train-v1.1.json \
--predict_file dev-v1.1.json \
--per_gpu_train_batch_size 12 \
--per_gpu_eval_batch_size 16 \
--learning_rate 3e-5 \
--num_train_epochs 2.0 \
--max_seq_length 320 \
--doc_stride 128 \
--data_dir data \
--output_dir data/roberta-base-squad-v1 2>&1 | tee train-roberta-base-squad-v1.log
训练耗时约2小时。
性能指标
模型大小: 477M
注:上述结果未经过超参数调优。
使用示例
from transformers import pipeline
qa_pipeline = pipeline(
"question-answering",
model="csarron/roberta-base-squad-v1",
tokenizer="csarron/roberta-base-squad-v1"
)
predictions = qa_pipeline({
'context': "比赛于2016年2月7日在加利福尼亚州圣克拉拉市旧金山湾区的李维斯体育场举行。",
'question': "比赛是在哪一天进行的?"
})
print(predictions)
由Qingqing Cao创建 | GitHub | Twitter
于纽约倾情呈现 ❤️