WRAP开源分类模型 - 免费提取推特信息，精准识别四大类别

首页

WRAP

由 TomatenMarc 开发

WRAP是一款高级分类模型，专为从推特数据中提取信息和推理而设计，能够识别推文中的理由、陈述、通知和无类别四种独特类别。

文本分类

Transformers

英语#推特论点挖掘 #推理信息分类 #多主题泛化

下载量 108

发布时间 : 9/12/2023

模型简介

WRAP基于AutoModelForSequenceClassification构建，采用改进的BERTweet-base架构，通过对比学习增强推文嵌入表示，以更好地编码推文中的推理和信息。

模型特点

推理与信息驱动分类

能够识别推文中的推理和信息组件，并将其分类为理由、陈述、通知或无类别。

改进的嵌入表示

通过WRAPresentations技术改进BERTweet-base架构，增强推文的嵌入表示。

多主题泛化能力

在多个主题（如堕胎、英国脱欧等）上表现出良好的泛化能力。

模型能力

文本分类

论点挖掘

观点挖掘

信息抽取

推理抽取

使用案例

社交媒体分析

推特论点挖掘

识别推特中的论点结构，如理由、陈述等。

在封闭主题和跨主题测试中表现良好，宏F1值达86.62%。

信息与推理分类

分类推文是否包含信息或推理组件。

在多分类任务中，微F1值达78.14%（理由）和79.36%（通知）。

🚀 WRAP -- 用于Twitter上推理和信息驱动的论点挖掘的基于TACO的分类器

WRAP是一个基于AutoModelForSequenceClassification构建的高级分类模型，旨在识别属于四个不同类别的推文：TACO数据集中的理由（Reason）、陈述（Statement）、通知（Notification）和无（None）。该专门的分类模型专为从Twitter数据中提取信息和推理而设计，它利用了WRAPresentations，WRAP的名称也由此而来。WRAPresentations是BERTweet-base架构的改进，其嵌入通过对比学习在增强推文中进行了扩展，以便更好地编码推文中的推理和信息。

✨ 主要特性

类语义

TACO框架围绕着论点的两个关键要素展开，这两个要素由剑桥词典定义。它将推理编码为“根据你所拥有的信息做出的猜测或形成的观点”，同时也利用了信息的定义，即“关于某人、公司、产品等的事实或细节”。

综合来看，WRAP可以识别特定类别的推文，其中推理和信息可以与包含这些组件的不同类别相关联：

陈述（Statement）：指仅呈现推理的独特情况，即“某人正式说或写的内容，或为表达观点而采取的行动”。
理由（Reason）：代表一个完整的论点，其中推理基于推文中直接提及的信息，如来源参考或引用，从而揭示作者“试图理解并根据实际事实做出判断”的动机。
通知（Notification）：指仅限于提供信息的推文，例如媒体渠道推广其最新文章。
无（None）：指既不提供推理也不提供信息的推文。

总体而言，WRAP可以对推文进行以下层次分类：

📦 安装指南

如果你已经安装了transformers，使用这个模型会很容易：

pip install -U transformers

💻 使用示例

基础用法

from transformers import pipeline

pipe = pipeline("text-classification", model="TomatenMarc/WRAP")
prediction = pipe("Huggingface is awesome")

print(prediction)

注意：推文在分类前需要进行预处理。

📚 详细文档

训练

最终模型使用了名为TACO的整个打乱的真实数据集进行训练，该数据集总共包含1734条推文。该数据集的主题分布如下：#堕胎（25.9%）、#脱欧（29.0%）、#权力的游戏（11.0%）、#指环王（12.1%）、#鱿鱼游戏（12.7%）和#推特收购（9.3%）。在训练过程中，我们使用了SimpleTransformers。

此外，数据集TACO的类别分布如下：

推理	无推理
865 (49.88%)	869 (50.12%)

信息	无信息
1081 (62.34%)	653 (37.66%)

理由	陈述	通知	无
581 (33.50%)	284 (16.38%)	500 (28.84%)	369 (21.28%)

注意：我们的训练让WRAP预测类别，其中类别（信息/推理）代表基于推理或信息组件的类聚合。

数据加载器

"data_loader": {
    "type": "torch.utils.data.dataloader.DataLoader",
    "args": {
        "batch_size": 8,
        "sampler": "torch.utils.data.sampler.RandomSampler"
    }
}

fit()方法的参数

{
    "epochs": 5,
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 4e-05
    },
    "scheduler": "WarmupLinear",
    "warmup_steps": 66
}

评估

我们应用了6折（封闭主题）交叉验证方法来展示WRAP的最佳性能。这涉及使用训练部分中描述的相同数据集和参数，其中我们在k - 1个分割上进行训练，并使用第k个分割进行预测。

此外，我们评估了它在TACO的6个主题（跨主题）上的泛化能力。每个k主题用于测试，而其余k - 1个主题用于训练。

总体而言，WRAP分类器的表现如下：

二分类任务

宏F1值	推理	信息	多类别
封闭主题	86.62%	86.30%	75.29%
跨主题	86.27%	84.90%	73.54%

多类别分类任务

微F1值	理由	陈述	通知	无
封闭主题	78.14%	60.96%	79.36%	82.72%
跨主题	77.05%	58.33%	78.45%	80.33%

环境影响

属性	详情
硬件类型	A100 PCIe 40GB
使用时长	10分钟
云服务提供商	Google Cloud Platform
计算区域	asia - southeast1（新加坡）
碳排放	0.02kg CO2

📄 许可证

📚 引用

@inproceedings{feger-dietze-2024-bertweets,
    title = "{BERT}weet{'}s {TACO} Fiesta: Contrasting Flavors On The Path Of Inference And Information-Driven Argument Mining On {T}witter",
    author = "Feger, Marc  and
              Dietze, Stefan",
    editor = "Duh, Kevin  and
              Gomez, Helena  and
              Bethard, Steven",
    booktitle = "Findings of the Association for Computational Linguistics: NAACL 2024",
    month = jun,
    year = "2024",
    address = "Mexico City, Mexico",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2024.findings-naacl.146",
    doi = "10.18653/v1/2024.findings-naacl.146",
    pages = "2256--2266"
}