F

Fineweb Edu Fasttext Classifier

由 kenhktsui 开发
基于FastText的轻量级分类器,用于评估网页内容的教育价值,优化CPU处理速度
下载量 20
发布时间 : 6/6/2024

模型简介

该模型用于评估网页内容的教育价值分类,特别优化了在CPU上的处理速度,适合大规模数据过滤。与基于Transformer的模型相比,在部分类别上表现接近但更轻量。

模型特点

高性能处理
在CPU上每秒可处理超过2000个样本,适合大规模数据过滤
轻量级替代方案
作为Transformer模型的轻量级替代,在基础分类任务上保持相当性能
保守评估策略
倾向于低估而非高估教育价值,适合预训练数据过滤

模型能力

文本分类
教育价值评估
大规模数据处理

使用案例

教育数据过滤
预训练数据筛选
在LLM预训练前过滤低教育价值内容
准确识别67.7%的样本,保守过滤策略减少高质量数据误删
教育资源评估
自动评估网页内容的教育价值等级
在基础类别(0-2级)上表现与Transformer模型相当
AIbase
智启未来,您的人工智能解决方案智库
简体中文