EuroBERT-210m-Quality-CL开源模型 - 自动评估自然和编程文本数据质量

首页

Eurobert 210m Quality CL

由 TempestTeam 开发

自动评估自然语言和编程语言文本数据质量的模型，提供统一模型和双模型两种方案。

文本分类

Transformers

支持多种语言开源协议:Apache-2.0 #多语言质量评估 #代码质量检测 #有害内容识别

下载量 19

发布时间 : 3/18/2025

模型简介

该模型通过评分体系自动评估文本数据质量，支持自然语言（法语、英语、西班牙语）和编程语言（Python、Java、JavaScript、C/C++）。提供统一模型和独立模型两种方案，适用于不同场景需求。

模型特点

多语言支持

同时支持自然语言（法语、英语、西班牙语）和编程语言（Python、Java、JavaScript、C/C++）的质量评估

双评估方案

提供统一模型和独立模型两种方案，可根据需求选择最适合的评估方式

有害内容识别

对有害内容识别表现优异，自然语言F1分数达0.93

清晰分类体系

提供四级分类等级：有害、低劣、中等、优质，便于理解和使用

模型能力

自然语言文本质量评估

编程语言代码质量评估

有害内容检测

多语言支持

使用案例

NLP预处理

文本语料库验证

在接入NLP系统前自动验证文本语料库质量

提高NLP系统输入数据质量

社区内容管理

技术社区内容评估

评估论坛、Stack Overflow、GitHub等技术社区内容质量

帮助筛选优质内容

代码生成

代码质量评估

评估代码生成系统输出的代码质量

提高代码生成系统的可靠性

🚀 文本数据质量自动评估模型（自然语言与代码语言）

本项目能够使用清晰直观的量表自动评估文本数据的质量，适用于自然语言（NL）和代码语言（CL）。我们对比了两种不同的方法：

统一模型：可同时处理自然语言和代码语言，模型地址为 EuroBERT-210m-Quality
双模型方法：分别处理自然语言和代码语言，具体如下：
- 自然语言模型：EuroBERT-210m-Quality-NL
- 代码语言模型：EuroBERT-210m-Quality-CL

✨ 主要特性

分类类别

有害：有害数据，可能存在错误或危险。
低质量：存在重大问题的低质量数据。
中等质量：质量中等，有改进空间但可以接受。
高质量：质量良好到非常好的数据，可直接使用。

支持的语言

自然语言：法语 🇫🇷、英语 🇬🇧、西班牙语 🇪🇸
代码语言：Python 🐍、Java ☕、JavaScript 📜、C/C++ ⚙️

📚 详细文档

性能表现

统一模型（自然语言 + 代码语言）的 F1 分数

类别	总体（自然语言 + 代码语言）	自然语言	代码语言
有害	0.86	0.93	0.79
低质量	0.62	0.81	0.40
中等质量	0.63	0.78	0.50
高质量	0.77	0.81	0.74
准确率	0.73	0.83	0.62

独立模型的 F1 分数

类别	总体（自然语言 + 代码语言）	自然语言	代码语言
有害	0.83	0.93	0.72
低质量	0.64	0.76	0.53
中等质量	0.63	0.76	0.52
高质量	0.79	0.81	0.76
准确率	0.73	0.82	0.63

关键性能指标

统一模型（自然语言 + 代码语言）：
- 总体准确率：约 73%
- 对有害数据的可靠性高（F1 分数：0.86）
独立模型：
- 自然语言（NL）：准确率约 82%
  - 对有害数据的表现出色（F1 分数：0.93）
- 代码语言（CL）：准确率约 63%
  - 对有害数据的检测效果良好（F1 分数：0.72）