语言: 中文
许可证: MIT
标签:
数据集:
评估指标:
示例应用:
-
文本: 亚马逊雨林在英语中还有哪个别称?
上下文: '亚马逊雨林(葡萄牙语:Floresta Amazônica或Amazônia;西班牙语:Selva Amazónica、Amazonía或通常称为Amazonia;法语:Forêt amazonienne;荷兰语:Amazoneregenwoud),在英语中也被称为Amazonia或亚马逊丛林,是一片覆盖南美洲亚马逊盆地大部分地区的湿润阔叶林。该盆地面积达7,000,000平方公里(2,700,000平方英里),其中5,500,000平方公里(2,100,000平方英里)被雨林覆盖。这一区域涵盖九个国家的领土。森林主要分布在巴西境内,占雨林面积的60%,其次是秘鲁占13%,哥伦比亚占10%,其余少量分布在委内瑞拉、厄瓜多尔、玻利维亚、圭亚那、苏里南和法属圭亚那。四个国家的州或省名称中包含“亚马逊”。亚马逊雨林占全球现存雨林面积的一半以上,是世界上最大且生物多样性最丰富的热带雨林地带,估计拥有3900亿棵树木,分属16,000个物种。'
-
文本: 该盆地内有多少平方公里的雨林覆盖面积?
上下文: '亚马逊雨林(葡萄牙语:Floresta Amazônica或Amazônia;西班牙语:Selva Amazónica、Amazonía或通常称为Amazonia;法语:Forêt amazonienne;荷兰语:Amazoneregenwoud),在英语中也被称为Amazonia或亚马逊丛林,是一片覆盖南美洲亚马逊盆地大部分地区的湿润阔叶林。该盆地面积达7,000,000平方公里(2,700,000平方英里),其中5,500,000平方公里(2,100,000平方英里)被雨林覆盖。这一区域涵盖九个国家的领土。森林主要分布在巴西境内,占雨林面积的60%,其次是秘鲁占13%,哥伦比亚占10%,其余少量分布在委内瑞拉、厄瓜多尔、玻利维亚、圭亚那、苏里南和法属圭亚那。四个国家的州或省名称中包含“亚马逊”。亚马逊雨林占全球现存雨林面积的一半以上,是世界上最大且生物多样性最丰富的热带雨林地带,估计拥有3900亿棵树木,分属16,000个物种。'
模型索引:
- 名称: csarron/bert-base-uncased-squad-v1
结果:
- 任务:
类型: 问答系统
名称: 问答任务
数据集:
名称: squad
类型: squad
配置: 纯文本
分割: 验证集
指标:
- 类型: 精确匹配
值: 80.9104
名称: 精确匹配率
已验证: 是
验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNDJlOWQ0OTE0ZjRhMTQwNDY5MjVhYmZiN2RmYzY0OWJiOWUyNjcyMWU5N2I3YmU0OThjZTVjNTc2MjM2Yzg5NiIsInZlcnNpb24iOjF9.cuJ34B-ngUur5wKGhfhVP8FM6NX4IFrIJEdXypbLQJw1i8M5Bb2EeIs-0M5n35YIx2PfqSQcnVj_jP8vLUk4Dg
- 类型: F1分数
值: 88.2302
名称: F1值
已验证: 是
验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYmE4NzFmNDA3MDRiODk3ZDg5NWYyNjczOGE5YjdkZWQ0ZmEzNWU5YjFjMzc1ODA2OGRjYzU0Y2M5MmU0NGNhYSIsInZlcnNpb24iOjF9.phmkVWF3I-rl2xrHW0EW9OQqzfuefoqNjWplOpFdzJuW8d2C4sJ8snW0Ikw9kQqZaBCdwdkmsf5VTgOupHb8Dw
基于SQuAD v1微调的BERT-base uncased模型
该模型是从HuggingFace的BERT基础uncased检查点在SQuAD1.1上微调而来。此模型不区分大小写:例如english和English对它来说没有区别。
详情
数据集 |
分割 |
样本数量 |
SQuAD1.1 |
训练集 |
90.6K |
SQuAD1.1 |
评估集 |
11.1k |
微调过程
-
Python版本: 3.7.5
-
机器配置:
CPU: Intel(R) Core(TM) i7-6800K CPU @ 3.40GHz
内存: 32 GiB
GPU: 2块GeForce GTX 1070,每块8GiB显存
GPU驱动: 418.87.01, CUDA版本: 10.1
-
脚本:
# 安装完https://github.com/huggingface/transformers后
cd examples/question-answering
mkdir -p data
wget -O data/train-v1.1.json https://rajpurkar.github.io/SQuAD-explorer/dataset/train-v1.1.json
wget -O data/dev-v1.1.json https://rajpurkar.github.io/SQuAD-explorer/dataset/dev-v1.1.json
python run_squad.py \
--model_type bert \
--model_name_or_path bert-base-uncased \
--do_train \
--do_eval \
--do_lower_case \
--train_file train-v1.1.json \
--predict_file dev-v1.1.json \
--per_gpu_train_batch_size 12 \
--per_gpu_eval_batch_size=16 \
--learning_rate 3e-5 \
--num_train_epochs 2.0 \
--max_seq_length 320 \
--doc_stride 128 \
--data_dir data \
--output_dir data/bert-base-uncased-squad-v1 2>&1 | tee train-energy-bert-base-squad-v1.log
整个过程耗时约2小时。
结果
模型大小: 418M
指标 |
当前值 |
原始论文值 (表2) |
精确匹配率 |
80.9 |
80.8 |
F1值 |
88.2 |
88.5 |
注意:上述结果未进行任何超参数调优。
使用示例
from transformers import pipeline
qa_pipeline = pipeline(
"question-answering",
model="csarron/bert-base-uncased-squad-v1",
tokenizer="csarron/bert-base-uncased-squad-v1"
)
predictions = qa_pipeline({
'context': "比赛于2016年2月7日在加利福尼亚州圣克拉拉市旧金山湾区的李维斯体育场举行。",
'question': "比赛是在哪一天举行的?"
})
print(predictions)
由Qingqing Cao创建 | GitHub | Twitter
于纽约倾情呈现 ❤️