EuroBERT-210m-Quality-NL开源模型 - 免费评估自然语言与编程文本质量

首页

Eurobert 210m Quality NL

由 TempestTeam 开发

自动评估自然语言与编程语言文本数据质量的模型，提供统一模型和双模型方案两种选择。

文本分类

Transformers

支持多种语言开源协议:Apache-2.0 #多语言质量评估 #代码质量检测 #有害内容识别

下载量 18

发布时间 : 3/18/2025

模型简介

该模型采用清晰直观的评分体系，自动评估自然语言（NL）与编程语言（CL）文本数据质量，支持多种语言和编程语言。

模型特点

多语言支持

支持法语、英语、西班牙语等自然语言，以及Python、Java、JavaScript、C/C++等编程语言。

双模型方案

提供统一模型和独立模型两种方案，分别处理自然语言和编程语言，以适应不同场景需求。

高质量评估

采用四等级分类体系（有害、低劣、中等、优质），准确识别文本质量。

模型能力

自然语言文本质量评估

编程语言文本质量评估

有害内容识别

多语言支持

使用案例

NLP流程

文本语料自动验证

在NLP或代码生成流程中自动验证文本语料的质量。

提升模型输入数据的质量

社区内容管理

论坛内容评估

自动评估论坛、Stack Overflow或GitHub等社区内容的质量。

提高社区内容整体质量

系统预处理

NLP系统预处理

提升NLP或代码生成系统性能的自动化预处理。

优化系统性能

🚀 文本数据质量自动评估模型（自然语言与代码语言）

本项目可使用清晰直观的量表自动评估文本数据质量，适用于自然语言（NL）和代码语言（CL）。我们对比了两种不同的方法：

统一模型：联合处理自然语言和代码语言，模型链接：EuroBERT - 210m - Quality
双模型方法：分别处理自然语言和代码语言：
- 自然语言模型：EuroBERT - 210m - Quality - NL
- 代码语言模型：EuroBERT - 210m - Quality - CL

✨ 主要特性

分类类别

有害：有害数据，可能存在错误或危险。
低质量：存在重大问题的低质量数据。
中等质量：质量中等，有改进空间但可以接受。
高质量：质量良好至非常好的数据，可直接使用。

支持语言

自然语言：法语 🇫🇷、英语 🇬🇧、西班牙语 🇪🇸
代码语言：Python 🐍、Java ☕、JavaScript 📜、C/C++ ⚙️

性能表现

统一模型（自然语言 + 代码语言）的F1分数

类别	总体（自然语言 + 代码语言）	自然语言	代码语言
有害	0.86	0.93	0.79
低质量	0.62	0.81	0.40
中等质量	0.63	0.78	0.50
高质量	0.77	0.81	0.74
准确率	0.73	0.83	0.62

分离模型的F1分数

类别	总体（自然语言 + 代码语言）	自然语言	代码语言
有害	0.83	0.93	0.72
低质量	0.64	0.76	0.53
中等质量	0.63	0.76	0.52
高质量	0.79	0.81	0.76
准确率	0.73	0.82	0.63

关键性能指标

统一模型（自然语言 + 代码语言）：
- 总体准确率：约73%
- 对有害数据的可靠性高（F1分数：0.86）
分离模型：
- 自然语言（NL）：准确率约82%
  - 对有害数据的表现出色（F1分数：0.93）
- 代码语言（CL）：准确率约63%
  - 对有害数据的检测效果良好（F1分数：0.72）

训练数据集

公开可用的数据集：TempestTeam/dataset-quality

常见用例

在将文本语料集成到自然语言处理或代码生成管道之前进行自动验证。
评估社区贡献（论坛、Stack Overflow、GitHub）的质量。
进行自动预处理，以提高自然语言处理或代码生成系统的性能。

使用建议

💡 使用建议

对于特定场景，建议使用分离的自然语言和代码语言模型以获得最佳效果。

当数据上下文未知或混合时，统一模型适用于快速评估。

引用说明

如果在您的项目中使用了本模型，请在Hugging Face Hub上引用或链接回此模型。

📄 许可证

本项目采用Apache 2.0许可证。

属性	详情
模型类型	文本数据质量自动评估模型
支持语言	自然语言：法语、英语、西班牙语；代码语言：Python、Java、JavaScript、C/C++
基础模型	EuroBERT/EuroBERT - 210m
训练数据	TempestTeam/dataset-quality
许可证	Apache 2.0