Scandi - Fine - Web - Cleaner开源分类器：精准识别丹麦语、瑞典语网页文本问题内容

首页

Scandi Fine Web Cleaner

由 davanstrien 开发

该模型是一个演示分类器，用于识别丹麦语和瑞典语网页文本中的问题内容（错误语言、乱码文本）。

文本分类

Transformers

其他开源协议:MIT #北欧网页文本过滤 #高精确率分类 #多语言错误检测

下载量 42

发布时间 : 1/10/2025

模型简介

该模型通过在FineWeb-c数据集上微调XLM-RoBERTa-base而开发，旨在作为网页文本的初步过滤器，以提高标注效率。

模型特点

高精确率

精确率达到95.2%，意味着误报较少

双语支持

专门针对丹麦语和瑞典语内容进行优化

网页文本过滤

设计用于提高网页数据标注效率的初步过滤器

模型能力

识别错误语言内容

检测乱码文本

网页文本分类

使用案例

数据清洗

网页数据预处理

在数据标注前过滤低质量内容

提高标注效率和质量

🚀 斯堪的纳维亚精细网络清理器

本模型是一个用于识别丹麦语和瑞典语网络文本中问题内容（语言错误、乱码文本）的演示分类器。它是作为一篇博客文章的一部分创建的，该文章探讨了如何使用社区注释来过滤网络数据。该模型是通过在 data-is-better-together/fineweb-c 数据集上对 FacebookAI/xlm-roberta-base 进行微调而创建的。

它在评估集上取得了以下结果：

精确率：0.9524（95.2%）
召回率：0.7018（70.2%）
F1值：0.8081
AUC-ROC：0.9648

🚀 快速开始

本模型可作为网络文本的初步过滤器，帮助提高注释效率。它仅在丹麦语和瑞典语内容上进行了测试。高精度（95.2%）意味着误报很少，而召回率（70.2%）表明它能捕捉到大多数问题内容。

✨ 主要特性

特定语言适用：专门针对丹麦语和瑞典语网络文本进行问题内容识别。
高精度：精确率达到 95.2%，误报情况较少。
良好召回率：召回率为 70.2%，能有效捕捉问题内容。

📚 详细文档

预期用途和限制

该模型旨在用作网络文本的初步过滤器，以帮助提高注释效率。它仅在丹麦语和瑞典语内容上进行了测试。高精度（95.2%）意味着误报很少，而召回率（70.2%）表明它能捕捉到大多数问题内容。

训练和评估数据

更多信息待补充。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：2e - 05
训练批次大小：16
评估批次大小：16
随机种子：42
优化器：使用 OptimizerNames.ADAMW_TORCH，β值为(0.9, 0.999)，ε值为 1e - 08，无额外优化器参数
学习率调度器类型：线性
训练轮数：10
混合精度训练：原生 AMP

训练结果

训练损失	轮数	步数	验证损失	精确率	召回率	F1值	AUC-ROC	平衡准确率	平均精确率
0.3165	1.0	100	0.2333	0.95	0.6667	0.7835	0.8099	0.8304	0.7721
0.1929	2.0	200	0.1359	0.9130	0.7368	0.8155	0.9778	0.8626	0.9105
0.1775	3.0	300	0.2245	0.9268	0.6667	0.7755	0.9481	0.8290	0.8721
0.1553	4.0	400	0.1816	0.9524	0.7018	0.8081	0.9648	0.8480	0.8906

框架版本

Transformers 4.48.0
Pytorch 2.5.1+cu124
Datasets 3.2.0
Tokenizers 0.21.0

📄 许可证

本项目采用 MIT 许可证。

📦 模型信息

属性	详情
模型类型	scandi - fine - web - cleaner
基础模型	FacebookAI/xlm - roberta - base
训练数据集	data - is - better - together/fineweb - c
语言支持	瑞典语、丹麦语
评估指标	精确率、召回率、F1值、AUC - ROC