数据集:
- relbert/semeval2012_relational_similarity_v2
模型索引:
- 名称: relbert/roberta-large-semeval2012-v2-mask-prompt-e-nce
结果:
- 任务:
名称: 关系映射
类型: 排序任务
数据集:
名称: 关系映射
参数: relbert/relation_mapping
类型: 关系映射
指标:
- 名称: 准确率
类型: 准确率
值: 0.8457142857142858
- 任务:
名称: 类比问题 (SAT 完整版)
类型: 多项选择问答
数据集:
名称: SAT 完整版
参数: relbert/analogy_questions
类型: 类比问题
指标:
- 名称: 准确率
类型: 准确率
值: 0.6096256684491979
- 任务:
名称: 类比问题 (SAT)
类型: 多项选择问答
数据集:
名称: SAT
参数: relbert/analogy_questions
类型: 类比问题
指标:
- 名称: 准确率
类型: 准确率
值: 0.6112759643916914
- 任务:
名称: 类比问题 (BATS)
类型: 多项选择问答
数据集:
名称: BATS
参数: relbert/analogy_questions
类型: 类比问题
指标:
- 名称: 准确率
类型: 准确率
值: 0.7576431350750417
- 任务:
名称: 类比问题 (谷歌)
类型: 多项选择问答
数据集:
名称: 谷歌
参数: relbert/analogy_questions
类型: 类比问题
指标:
- 任务:
名称: 类比问题 (U2)
类型: 多项选择问答
数据集:
名称: U2
参数: relbert/analogy_questions
类型: 类比问题
指标:
- 名称: 准确率
类型: 准确率
值: 0.5964912280701754
- 任务:
名称: 类比问题 (U4)
类型: 多项选择问答
数据集:
名称: U4
参数: relbert/analogy_questions
类型: 类比问题
指标:
- 名称: 准确率
类型: 准确率
值: 0.6087962962962963
- 任务:
名称: 词汇关系分类 (BLESS)
类型: 分类
数据集:
名称: BLESS
参数: relbert/lexical_relation_classification
类型: 关系分类
指标:
- 名称: F1
类型: f1
值: 0.9264728039777008
- 名称: F1 (宏平均)
类型: f1_macro
值: 0.9231888761944194
- 任务:
名称: 词汇关系分类 (CogALexV)
类型: 分类
数据集:
名称: CogALexV
参数: relbert/lexical_relation_classification
类型: 关系分类
指标:
- 名称: F1
类型: f1
值: 0.8720657276995305
- 名称: F1 (宏平均)
类型: f1_macro
值: 0.7203249423895846
- 任务:
名称: 词汇关系分类 (EVALution)
类型: 分类
数据集:
名称: BLESS
参数: relbert/lexical_relation_classification
类型: 关系分类
指标:
- 名称: F1
类型: f1
值: 0.7074756229685807
- 名称: F1 (宏平均)
类型: f1_macro
值: 0.7003587066174993
- 任务:
名称: 词汇关系分类 (K&H+N)
类型: 分类
数据集:
名称: K&H+N
参数: relbert/lexical_relation_classification
类型: 关系分类
指标:
- 名称: F1
类型: f1
值: 0.9625095638867636
- 名称: F1 (宏平均)
类型: f1_macro
值: 0.8943198093953978
- 任务:
名称: 词汇关系分类 (ROOT09)
类型: 分类
数据集:
名称: ROOT09
参数: relbert/lexical_relation_classification
类型: 关系分类
指标:
- 名称: F1
类型: f1
值: 0.9022250078345346
- 名称: F1 (宏平均)
类型: f1_macro
值: 0.9008228707899653
relbert/roberta-large-semeval2012-v2-mask-prompt-e-nce
RelBERT 基于 roberta-large 在
relbert/semeval2012_relational_similarity_v2 数据集上微调而成。
微调过程通过 RelBERT 库完成(详情请参阅该仓库)。
该模型在关系理解任务上取得了以下成果:
- 类比问题 (数据集, 完整结果):
- SAT (完整版) 准确率: 0.6096256684491979
- SAT 准确率: 0.6112759643916914
- BATS 准确率: 0.7576431350750417
- U2 准确率: 0.5964912280701754
- U4 准确率: 0.6087962962962963
- 谷歌 准确率: 0.878
- 词汇关系分类 (数据集, 完整结果):
- BLESS 微平均 F1 分数: 0.9264728039777008
- CogALexV 微平均 F1 分数: 0.8720657276995305
- EVALution 微平均 F1 分数: 0.7074756229685807
- K&H+N 微平均 F1 分数: 0.9625095638867636
- ROOT09 微平均 F1 分数: 0.9022250078345346
- 关系映射 (数据集, 完整结果):
- 关系映射准确率: 0.8457142857142858
使用方法
此模型可通过 relbert 库 使用。通过 pip 安装该库:
pip install relbert
并按如下方式激活模型:
from relbert import RelBERT
model = RelBERT("relbert/roberta-large-semeval2012-v2-mask-prompt-e-nce")
vector = model.get_embedding(['东京', '日本'])
训练超参数
训练过程中使用的超参数如下:
- 模型: roberta-large
- 最大长度: 64
- 模式: mask
- 数据: relbert/semeval2012_relational_similarity_v2
- 模板模式: 手动
- 模板: 我之前不知道这种关系,但刚刚在百科全书中读到 是 的
- 损失函数: nce_logout
- NCE 温度常数: 0.05
- NCE 温度排名: {'min': 0.01, 'max': 0.05, 'type': 'linear'}
- 训练轮数: 29
- 批量大小: 128
- 学习率: 5e-06
- 学习率衰减: 否
- 学习率预热: 1
- 权重衰减: 0
- 随机种子: 0
- 排除关系: 无
- 样本数: 640
- 梯度累积: 8
完整配置可查看 微调参数文件。
参考文献
如果您使用了 RelBERT 的任何资源,请考虑引用我们的 论文。
@inproceedings{ushio-etal-2021-distilling-relation-embeddings,
title = "{D}istilling {R}elation {E}mbeddings from {P}re-trained {L}anguage {M}odels",
author = "Ushio, Asahi and
Schockaert, Steven and
Camacho-Collados, Jose",
booktitle = "EMNLP 2021",
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
}