language:
- en
pipeline_tag: text-classification
license: mit
MiniCheck-Flan-T5-Large模型

这是我们研究工作中的事实核查模型:
📃 MiniCheck:基于参考文档对LLM生成内容的高效事实核查(EMNLP 2024,GitHub代码库)
该模型基于Flan-T5-Large架构,用于预测二元标签——1表示支持,0表示不支持。模型在句子级别进行预测,输入为文档和句子,判断该句子是否被文档支持:MiniCheck模型(文档, 声明) -> {0, 1}
MiniCheck-Flan-T5-Large是参数量小于10亿的最佳事实核查模型,性能媲美GPT-4。它是在35K组合数据上对google/flan-t5-large
(Chung等,2022)进行微调的:
- 21K ANLI数据(Nie等,2020)
- 14K通过结构化方式全新生成的合成数据(详见论文)。
模型变体
我们还提供了其他三个MiniCheck模型变体:
模型性能
这些模型的性能在我们新收集的基准测试LLM-AggreFact上评估(训练时未见过),该基准来自11个最新的人工标注事实核查数据集。MiniCheck-Flan-T5-Large大幅超越所有同规模专用事实核查模型(绝对提升4-10%),与GPT-4相当,但成本降低400倍。完整结果参见我们的论文。
注:我们仅评估模型对真实声明的性能——未对模型生成声明进行任何人工干预(如注入特定错误类型)。经人工编辑的声明不能反映LLM的真实行为。
模型使用演示
请运行以下命令安装MiniCheck包及所有依赖:
pip install "minicheck @ git+https://github.com/Liyan06/MiniCheck.git@main"
基础使用示例
from minicheck.minicheck import MiniCheck
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
doc = "一群学生在学校图书馆为即将到来的期末考试复习。"
claim_1 = "学生们正在为考试做准备。"
claim_2 = "学生们正在度假。"
scorer = MiniCheck(model_name='flan-t5-large', cache_dir='./ckpts')
pred_label, raw_prob, _, _ = scorer.score(docs=[doc, doc], claims=[claim_1, claim_2])
print(pred_label)
print(raw_prob)
import pandas as pd
from datasets import load_dataset
from minicheck.minicheck import MiniCheck
import os
os.environ["CUDA_VISIBLE_DEVICES"] = "0"
df = pd.DataFrame(load_dataset("lytang/LLM-AggreFact")['test'])
docs = df.doc.values
claims = df.claim.values
scorer = MiniCheck(model_name='flan-t5-large', cache_dir='./ckpts')
pred_label, raw_prob, _, _ = scorer.score(docs=docs, claims=claims)
评估基准测试结果:
from sklearn.metrics import balanced_accuracy_score
df['preds'] = pred_label
result_df = pd.DataFrame(columns=['数据集', '平衡准确率'])
for dataset in df.dataset.unique():
sub_df = df[df.dataset == dataset]
bacc = balanced_accuracy_score(sub_df.label, sub_df.preds) * 100
result_df.loc[len(result_df)] = [dataset, bacc]
result_df.loc[len(result_df)] = ['平均值', result_df.平衡准确率.mean()]
result_df.round(1)
引用
@InProceedings{tang-etal-2024-minicheck,
title = {MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents},
author = {Liyan Tang and Philippe Laban and Greg Durrett},
booktitle = {Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing},
year = {2024},
publisher = {Association for Computational Linguistics},
url = {https://arxiv.org/pdf/2404.10774}
}