EuroBERT-210m-Quality开源模型 - 自动评估语言文本数据质量，双方案可选

首页

Eurobert 210m Quality

由 TempestTeam 开发

自动评估自然语言和编程语言文本数据质量的模型，提供统一模型和独立模型两种方案。

文本分类

Transformers

支持多种语言开源协议:Apache-2.0 #多语言质量评估 #代码质量检测 #有害内容过滤

下载量 26

发布时间 : 3/18/2025

模型简介

该模型通过评分体系自动评估文本数据质量，支持自然语言（法语、英语、西班牙语）和编程语言（Python、Java、JavaScript、C/C++），可识别有害内容并分类质量等级。

模型特点

多语言支持

同时支持自然语言（法语、英语、西班牙语）和编程语言（Python、Java、JavaScript、C/C++）的质量评估。

双模型方案

提供统一模型和独立模型两种方案，可根据需求选择最适合的评估方式。

有害内容识别

高效识别有害内容，f1分数高达0.93（自然语言）和0.79（编程语言）。

质量等级分类

将文本数据分为有害内容、低质量、中等质量和高质量四个等级，便于后续处理。

模型能力

自然语言文本质量评估

编程语言代码质量评估

有害内容识别

质量等级分类

使用案例

NLP流程

文本语料自动验证

在NLP流程中自动验证文本语料的质量，提升模型训练效果。

准确率约82%（自然语言）

社区内容管理

论坛内容质量评估

自动评估论坛或Stack Overflow等社区内容的质量，辅助内容管理。

有害内容识别f1分数0.93（自然语言）

代码生成

代码质量评估

在代码生成流程中自动评估生成的代码质量，确保代码可用性。

准确率约63%（编程语言）

🚀 文本数据质量自动评估模型 (自然语言与代码语言)

本项目可使用清晰直观的量表自动评估文本数据的质量，适用于自然语言（NL）和代码语言（CL）。我们对比了两种不同的方法：

统一模型：可同时处理自然语言和代码语言，模型链接为 EuroBERT - 210m - Quality。
双模型方法：分别处理自然语言和代码语言：
- 自然语言模型：EuroBERT - 210m - Quality - NL。
- 代码语言模型：EuroBERT - 210m - Quality - CL。

✨ 主要特性

分类类别

有害：有害数据，可能存在错误或危险。
低质量：存在重大问题的低质量数据。
中等质量：质量中等，有改进空间但可以接受。
高质量：质量良好至非常好的数据，可直接使用。

支持的语言

自然语言：法语 🇫🇷、英语 🇬🇧、西班牙语 🇪🇸。
代码语言：Python 🐍、Java ☕、JavaScript 📜、C/C++ ⚙️。

📚 详细文档

性能

统一模型（自然语言 + 代码语言）的 F1 分数

类别	总体（自然语言 + 代码语言）	自然语言	代码语言
有害	0.86	0.93	0.79
低质量	0.62	0.81	0.40
中等质量	0.63	0.78	0.50
高质量	0.77	0.81	0.74
准确率	0.73	0.83	0.62

分离模型的 F1 分数

类别	总体（自然语言 + 代码语言）	自然语言	代码语言
有害	0.83	0.93	0.72
低质量	0.64	0.76	0.53
中等质量	0.63	0.76	0.52
高质量	0.79	0.81	0.76
准确率	0.73	0.82	0.63

关键性能指标

统一模型（自然语言 + 代码语言）：
- 总体准确率：约 73%。
- 对有害数据的可靠性高（F1 分数：0.86）。
分离模型：
- 自然语言（NL）：准确率约 82%。
  - 对有害数据的表现出色（F1 分数：0.93）。
- 代码语言（CL）：准确率约 63%。
  - 对有害数据的检测效果良好（F1 分数：0.72）。