语言: 英文
数据集:
小部件示例:
基于ByT5-base的仇恨言论检测模型(针对推文)
ByT5基础模型在推文仇恨言论检测数据集上微调,用于序列分类下游任务。
ByT5-Base模型详情 🧠
ByT5是谷歌T5的无分词器版本,整体架构遵循MT5。
ByT5仅在mC4数据集上进行了预训练,未包含任何监督学习,平均掩码长度为20个UTF-8字符。因此,该模型需在下游任务上微调后才能使用。
ByT5在噪声文本数据上表现尤为出色,例如google/byt5-base
在TweetQA任务上显著优于mt5-base。
论文: ByT5:迈向无需分词的字节到字节预训练模型未来
作者: Linting Xue, Aditya Barua, Noah Constant, Rami Al-Rfou, Sharan Narang, Mihir Kale, Adam Roberts, Colin Raffel
下游任务详情(作为文本生成的序列分类)- 数据集 📚
推文仇恨言论检测数据集
该任务目标是检测推文中的仇恨言论。简而言之,若推文带有种族主义或性别歧视情绪,则视为包含仇恨言论。因此,任务是将种族主义或性别歧视推文与其他推文分类。
形式化描述:给定带标签的推文训练样本,标签‘1’表示推文为种族主义/性别歧视,‘0’表示非仇恨言论,目标是在测试数据集上预测标签。
- 数据实例:
数据集包含标签,标识推文是否为仇恨言论。
{'label': 0, # 非仇恨言论
'tweet': '@用户 当父亲功能失调且自私到将孩子拖入他的困境中。#逃跑'}
测试集指标 🧏
我们抽取5%的条目作为代表性测试集。
由于数据集极度不平衡,我们取得了79.8的F1分数。
模型实战 🚀
git clone https://github.com/huggingface/transformers.git
pip install -q ./transformers
from transformers import AutoTokenizer, T5ForConditionalGeneration
ckpt = 'Narrativa/byt5-base-tweet-hate-detection'
tokenizer = AutoTokenizer.from_pretrained(ckpt)
model = T5ForConditionalGeneration.from_pretrained(ckpt).to("cuda")
def classify_tweet(tweet):
inputs = tokenizer([tweet], padding='max_length', truncation=True, max_length=512, return_tensors='pt')
input_ids = inputs.input_ids.to('cuda')
attention_mask = inputs.attention_mask.to('cuda')
output = model.generate(input_ids, attention_mask=attention_mask)
return tokenizer.decode(output[0], skip_special_tokens=True)
classify_tweet('输入你的推文...')
创建者: Narrativa
关于Narrativa: 自然语言生成(NLG)| Gabriele是我们的机器学习平台,构建并部署自然语言解决方案。#NLG #AI