标题: MeaningBERT
表情符号: 🦀
起始颜色: 紫色
结束颜色: 靛蓝
开发工具: gradio
工具版本: 4.2.0
应用文件: app.py
置顶状态: 未置顶
MeaningBERT简介
MeaningBERT是一个用于评估句子间语义保持程度的自动化可训练指标。该模型在我们发表的论文《MeaningBERT: 评估句子间的语义保持》中提出,其目标是评估两个句子间的语义保持程度,结果与人类判断和合理性检验高度相关。更多细节请参阅我们公开发表的论文。
本公开版本采用了训练时间更长(500个周期而非250个周期)的最佳模型(论文中展示的是10个模型平均性能)。后续观察发现,模型能进一步降低开发集损失并提升性能。此外,我们改进了论文中使用的数据增强技术,采用包含语义函数交换律(即Meaning(句子A, 句子B) = Meaning(句子B, 句子A))的更鲁棒方案。
合理性检验
与人类判断的相关性是评估语义保持指标质量的方法之一。但由于依赖主观的人类判断作为黄金标准,这种方法本质上是主观的,且需要多人标注的大规模数据集,成本高昂。为此,我们设计了两种自动化测试:评估完全相同的句子(应保持100%语义)与无关句子(应保持0%语义)之间的语义保持程度。这些测试的目标值非主观,也无需人工标注,代表了一个优秀语义保持指标应达到的基本阈值——即对相同句子应返回满分(100%),对完全无关句子应返回零分(0%)。
相同句子测试
首项测试评估相同句子间的语义保持。我们统计指标评分≥阈值X∈[95,99]的次数,除以总句子数以计算符合预期的比例。为规避计算机浮点误差,评分会四舍五入取整,且不采用100%阈值。
无关句子测试
第二项测试评估源句子与大型语言模型生成的无关句子间的语义保持。主要验证当输入完全无关的"词语杂烩"句子时,指标能否给出0分。预期评分为0时,我们检查指标是否≤阈值X∈[5,1]。同样会四舍五入取整,且不采用0%阈值。
使用MeaningBERT
您可通过HuggingFace模型进行推理或再训练:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("davebulaval/MeaningBERT")
model = AutoModelForSequenceClassification.from_pretrained("davebulaval/MeaningBERT")
或作为评估指标使用(无需训练):
import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained("davebulaval/MeaningBERT")
scorer = AutoModelForSequenceClassification.from_pretrained("davebulaval/MeaningBERT")
scorer.eval()
documents = ["他想让他们付出代价。", "这个三明治看起来很好吃。", "他想吃东西。"]
simplifications = ["他想让他们付出代价。", "这个三明治看起来很好吃。", "无论何时,这都是个句子。"]
tokenize_text = tokenizer(documents, simplifications, truncation=True, padding=True, return_tensors="pt")
with torch.no_grad():
scores = scorer(**tokenize_text)
print(scores.logits.tolist())
或使用HuggingFace指标模块:
import evaluate
documents = ["他想让他们付出代价。", "这个三明治看起来很好吃。", "他想吃东西。"]
simplifications = ["他想让他们付出代价。", "这个三明治看起来很好吃。", "无论何时,这都是个句子。"]
meaning_bert = evaluate.load("davebulaval/meaningbert")
print(meaning_bert.compute(references=documents, predictions=simplifications))
引用
请使用以下格式引用MeaningBERT:
@ARTICLE{10.3389/frai.2023.1223924,
作者={Beauchemin, David 和 Saggion, Horacio 以及 Khoury, Richard},
标题={MeaningBERT: 评估句子间的语义保持},
期刊={人工智能前沿},
卷号={6},
年份={2023},
网址={https://www.frontiersin.org/articles/10.3389/frai.2023.1223924},
DOI={10.3389/frai.2023.1223924},
ISSN={2624-8212},
}
参与贡献
我们欢迎用户反馈,无论是发现库中错误还是功能建议!请参阅贡献指南了解详情。
许可证
MeaningBERT采用MIT许可证,详见许可文件。