xlmr-large-toxicity-classifier-v2开源模型 - 免费支持15种语言文本毒性检测

首页

Xlmr Large Toxicity Classifier V2

由 textdetox 开发

基于xlm-roberta-large微调的二元毒性分类器，支持15种语言的文本毒性检测

文本分类

Transformers

支持多种语言#多语言毒性检测 #高精度F1 #跨文化内容审核

下载量 850

发布时间 : 3/19/2025

模型简介

该模型专门用于检测文本中的毒性内容，支持15种不同语言，适用于内容审核、社交媒体监控等场景。

模型特点

多语言支持

支持15种不同语系的语言毒性检测，包括英语、中文、俄语等主流语言

高准确率

在多种语言上达到高F1分数，如英语0.9225，俄语0.9525等

模型能力

文本分类

多语言处理

毒性内容检测

使用案例

内容审核

社交媒体内容过滤

自动识别并过滤社交媒体上的有毒评论

提高平台内容质量，减少人工审核成本

在线社区管理

多语言论坛管理

自动检测多语言论坛中的不当言论

维护社区健康环境

🚀 多语言毒性分类器（支持15种语言，2025版）

本项目是基于 [xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large) 模型微调得到的多语言毒性分类器。该模型在我们更新后的（2025年）textdetox/multilingual_toxicity_dataset 数据集上进行了二分类毒性分类任务的训练。它能够对15种不同语系的语言进行毒性分类，为文本安全检测提供了强大的支持。

🚀 快速开始

本模型是 [xlm - roberta - large](https://huggingface.co/FacebookAI/xlm - roberta - large) 的一个实例，在基于我们更新后的（2025年）数据集 textdetox/multilingual_toxicity_dataset 的二分类毒性分类任务上进行了微调。

目前，该模型支持来自不同语系的15种语言：

语言	代码	F1分数
英语	en	0.9225
俄语	ru	0.9525
乌克兰语	uk	0.96
德语	de	0.7325
西班牙语	es	0.7125
阿拉伯语	ar	0.6625
阿姆哈拉语	am	0.5575
印地语	hi	0.9725
中文	zh	0.9175
意大利语	it	0.5864
法语	fr	0.9235
印英混合语	hin	0.61
希伯来语	he	0.8775
日语	ja	0.8773
鞑靼语	tt	0.5744

💻 使用示例

基础用法

import torch
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained('textdetox/xlmr-large-toxicity-classifier-v2')
model = AutoModelForSequenceClassification.from_pretrained('textdetox/xlmr-large-toxicity-classifier-v2')

batch = tokenizer.encode("You are amazing!", return_tensors="pt")

output = model(batch)
# idx 0 for neutral, idx 1 for toxic

📚 详细文档

该模型是为 TextDetox 2025共享任务评估而准备的。

引用信息即将公布。

📄 许可证

本项目采用 openrail++ 许可证。

📦 相关信息

属性	详情
库名称	transformers
支持语言	英语、法语、意大利语、西班牙语、俄语、乌克兰语、鞑靼语、阿拉伯语、印地语、日语、中文、希伯来语、阿姆哈拉语、德语
许可证	openrail++
数据集	textdetox/multilingual_toxicity_dataset
评估指标	f1
基础模型	FacebookAI/xlm - roberta - large
任务类型	文本分类