许可证:cc-by-4.0
语言:提格里尼亚语
小部件:
- 文本:"<待分类文本>"
数据集:
- fgaim/tigrinya-abusive-language-detection
评估指标:
- 准确率
- F1值
- 精确率
- 召回率
模型索引:
- 名称:tiroberta-tiald-all-tasks
结果:
- 任务:
名称:文本分类
类型:text-classification
指标:
- 名称:准确率
类型:accuracy
值:0.8666666666666667
- 名称:F1值
类型:f1
值:0.8666502037288554
- 名称:精确率
类型:precision
值:0.8668478260869565
- 名称:召回率
类型:recall
值:0.8666666666666667
专为提格里尼亚语侮辱性语言检测优化的TiRoBERTa模型
本模型是基于TiRoBERTa在TiALD数据集上微调的版本。
提格里尼亚语侮辱性语言检测(TiALD)数据集是一个大规模、多任务的基准数据集,用于提格里尼亚语中的侮辱性语言检测。该数据集包含13,717条YouTube评论,标注了侮辱性、情感倾向和主题任务。数据集同时包含使用吉兹字母和常见非标准拉丁转写的评论,以反映真实使用场景。
⚠️ 该数据集包含露骨、淫秽及潜在仇恨言论,仅限研究用途。⚠️
本工作配套论文《低资源环境下侮辱性语言检测的多任务基准研究》(https://arxiv.org/abs/2505.12116)。
模型使用
from transformers import pipeline
tiald_pipe = pipeline("text-classification", model="fgaim/tiroberta-abusiveness-detection")
tiald_pipe("<待分类文本>")
性能指标
模型在评估集上取得如下结果:
"侮辱性检测指标": {
"准确率": 0.8666666666666667,
"宏观F1值": 0.8666502037288554,
"宏观精确率": 0.8668478260869565,
"宏观召回率": 0.8666666666666667,
"加权F1值": 0.8666502037288554,
"加权精确率": 0.8668478260869565,
"加权召回率": 0.8666666666666667
}
训练超参数
训练采用以下超参数配置:
- 学习率:2e-05
- 训练批次大小:16
- 优化器:Adam (β1=0.9, β2=0.999, ε=1e-08)
- 学习率调度器类型:线性
- 训练轮次:4.0
- 随机种子:42
预期用途
TiALD数据集和模型旨在支持:
- 低资源语言侮辱性语言检测研究
- 结合上下文的情感与主题建模
- 双文字脚本的多任务与迁移学习
- 多语言及微调语言模型评估
研究人员和开发者应避免在无人监督的情况下直接将该数据集用于内容审核或执法任务。
伦理考量
- 敏感内容:包含有毒和冒犯性语言,仅限研究用途
- 文化敏感性:由母语者标注以捕捉文化语境差异
- 偏见缓解:通过精心设计的数据采样和标注流程减少刻板印象强化
- 隐私保护:所有数据源均来自YouTube公开内容
- 表达尊重:未经人工审核不得用于自动化审查
本研究已获机构审查委员会批准(编号:KH2022-133),遵循伦理数据收集规范,包括标注者的知情同意。
引用方式
如使用本模型或TiALD数据集,请引用:
@misc{gaim-etal-2025-tiald-benchmark,
title = {低资源环境下侮辱性语言检测的多任务基准研究},
author = {Fitsum Gaim and Hoyun Song and Huije Lee and Changgeon Ko and Eui Jun Hwang and Jong C. Park},
year = {2025},
eprint = {2505.12116},
archiveprefix = {arXiv},
primaryclass = {cs.CL},
url = {https://arxiv.org/abs/2505.12116}
}
许可证
本数据集采用知识共享署名4.0国际许可协议(CC BY 4.0)发布。