distilbert-base-multilingual-cased-toxicity开源模型 - 免费部署精准识别10种语言文本毒性

首页

Distilbert Base Multilingual Cased Toxicity

由 citizenlab 开发

基于JIGSAW毒性评论分类挑战赛数据集训练的多语言文本毒性分类模型，支持10种语言。

文本分类

Transformers

支持多种语言#多语言毒性检测 #高精度文本分类 #社交媒体内容审核

下载量 12.69k

发布时间 : 3/2/2022

模型简介

该模型用于检测文本中的毒性内容，基于Distil-Bert架构，针对多语言环境优化，适用于内容审核等场景。

模型特点

多语言支持

支持10种欧洲主要语言的毒性内容检测

高效轻量

基于Distil-Bert架构，在保持性能的同时减少计算资源需求

高准确率

在JIGSAW数据集上达到94.25%的准确率

模型能力

文本毒性检测

多语言文本分类

内容审核

使用案例

内容审核

社交媒体评论过滤

自动识别并过滤社交媒体上的毒性评论

准确率94.25%，F1分数0.945

在线社区管理

帮助社区管理员识别不当言论

属性	详情
管道类型	文本分类
支持语言	英语、荷兰语、法语、葡萄牙语、意大利语、西班牙语、德语、丹麦语、波兰语、南非荷兰语
训练数据集	jigsaw_toxicity_pred
评估指标	F1准确率

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文

Distilbert Base Multilingual Cased Toxicity

模型简介

模型特点

模型能力

使用案例

🚀 citizenlab/distilbert-base-multilingual-cased-toxicity

🚀 快速开始

模型信息

模型使用示例

模型评估

准确率