D
Deoffxlmr Mono Tamil
由 Hate-speech-CNERG 开发
该模型用于检测泰米尔语代码混合文本中的冒犯性内容,基于XLM-Roberta-Base模型训练,在EACL 2021达罗毗荼语系冒犯性语言识别共享任务中表现优异。
下载量 100
发布时间 : 3/2/2022
模型简介
专门用于识别泰米尔语(包括纯文本及代码混合形式)中的冒犯性内容的单语模型,采用Transformer架构,在特定数据集上取得了较高的检测准确率。
模型特点
单语专注优化
专门针对泰米尔语(包括代码混合形式)进行优化,相比多语言模型在特定语言任务上表现更优
集成策略优势
采用遗传算法集成技术,在共享任务中获得了泰米尔语子任务第一名的成绩
低资源语言解决方案
针对泰米尔语等低资源语言的冒犯性内容检测难题提供了有效解决方案
模型能力
泰米尔语文本分类
代码混合文本处理
冒犯性内容识别
使用案例
内容审核
社交媒体内容过滤
自动检测泰米尔语社交媒体中的冒犯性言论
在测试集上达到0.76的加权F1分数
语言研究
达罗毗荼语系语言分析
用于研究泰米尔语等低资源语言中的冒犯性语言特征
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文