D

Deoffxlmr Mono Tamil

由 Hate-speech-CNERG 开发
该模型用于检测泰米尔语代码混合文本中的冒犯性内容,基于XLM-Roberta-Base模型训练,在EACL 2021达罗毗荼语系冒犯性语言识别共享任务中表现优异。
下载量 100
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

专门用于识别泰米尔语(包括纯文本及代码混合形式)中的冒犯性内容的单语模型,采用Transformer架构,在特定数据集上取得了较高的检测准确率。

模型特点

单语专注优化
专门针对泰米尔语(包括代码混合形式)进行优化,相比多语言模型在特定语言任务上表现更优
集成策略优势
采用遗传算法集成技术,在共享任务中获得了泰米尔语子任务第一名的成绩
低资源语言解决方案
针对泰米尔语等低资源语言的冒犯性内容检测难题提供了有效解决方案

模型能力

泰米尔语文本分类
代码混合文本处理
冒犯性内容识别

使用案例

内容审核
社交媒体内容过滤
自动检测泰米尔语社交媒体中的冒犯性言论
在测试集上达到0.76的加权F1分数
语言研究
达罗毗荼语系语言分析
用于研究泰米尔语等低资源语言中的冒犯性语言特征