fineweb-edu-fasttext-classifier开源分类器 - 快速评估网页教育价值，优化CPU处理

首页

Fineweb Edu Fasttext Classifier

由 kenhktsui 开发

基于FastText的轻量级分类器，用于评估网页内容的教育价值，优化CPU处理速度

文本分类英语#教育价值评估 #高速文本分类 #轻量级模型

下载量 20

发布时间 : 6/6/2024

模型简介

该模型用于评估网页内容的教育价值分类，特别优化了在CPU上的处理速度，适合大规模数据过滤。与基于Transformer的模型相比，在部分类别上表现接近但更轻量。

模型特点

高性能处理

在CPU上每秒可处理超过2000个样本，适合大规模数据过滤

轻量级替代方案

作为Transformer模型的轻量级替代，在基础分类任务上保持相当性能

保守评估策略

倾向于低估而非高估教育价值，适合预训练数据过滤

模型能力

文本分类

教育价值评估

大规模数据处理

使用案例

教育数据过滤

预训练数据筛选

在LLM预训练前过滤低教育价值内容

准确识别67.7%的样本，保守过滤策略减少高质量数据误删

教育资源评估

自动评估网页内容的教育价值等级

在基础类别(0-2级)上表现与Transformer模型相当

🚀 精细网络教育FastText分类器

本项目是一个基于FastText的分类器，用于判断网页的教育价值。它借助训练数据 fineweb-edu-llama3-annotations 进行训练，具备两大核心目标：一是实现高吞吐量优化，在CPU上每秒可分类超2000个示例，适用于预训练阶段实时处理海量数据；二是对比FastText轻量级模型与基于Transformer的原模型 HuggingFaceFW/fineweb-edu-classifier 的性能差异。

模型信息

属性	详情
模型类型	FastText分类器
训练数据	fineweb-edu-llama3-annotations
许可证	ODC-BY

🚀 快速开始

本模型是一个基于FastText的分类器，用于根据训练数据 fineweb-edu-llama3-annotations 判断网页的教育价值。它有两个目标：

⚡ 吞吐量优化：在CPU上每秒可以对2000多个示例进行分类，因此可以在预训练期间即时使用，以使用CPU处理大量数据。
🧪 FastText与基于Transformer的模型对比：这个容量有限的轻量级模型与原始模型 HuggingFaceFW/fineweb-edu-classifier 相比如何？

FastText方法的灵感来自于我基于不同的教育价值定义独立开发的教育分类器，可在 kenhktsui/llm-data-textbook-quality-fasttext-classifier-v2 找到。

💻 使用示例

基础用法

from typing import List
import re
from huggingface_hub import hf_hub_download
import fasttext

model_hf = fasttext.load_model(hf_hub_download("kenhktsui/fineweb-edu-fasttext-classifier", "model.bin"))


def replace_newlines(text: str) -> str:
  return re.sub("\n+", " ", text)


def predict(text_list: List[str]) -> List[dict]:
  text_list = [replace_newlines(text) for text in text_list]
  pred = model_hf.predict(text_list)
  return [{"label": int(l[0].lstrip("__label__")), "score": s[0]}
           for l, s in zip(*pred)]


predict(["Hi"])
# 输出: [{'label': 0, 'score': 1.00001}]

📊 评估

使用最后46867个样本作为测试数据，但这与 HuggingFaceFW/fineweb-edu-classifier 中的测试数据并不完全相同。

分类报告

              精确率    召回率  f1分数   样本数

           0       0.72      0.44      0.55      5704
           1       0.73      0.87      0.80     26595
           2       0.52      0.49      0.50     10350
           3       0.48      0.33      0.39      3397
           4       0.69      0.03      0.06       819
           5       0.00      0.00      0.00         2

    准确率                           0.68     46867
   宏平均       0.52      0.36      0.38     46867
加权平均       0.67      0.68      0.66     46867

下面的表格比较了FastText模型和基于Transformer的模型。

标签	本模型	HuggingFaceFW/fineweb-edu-classifier
0	0.55	0.59
1	0.80	0.81
2	0.50	0.59
3	0.39	0.53
4	0.06	0.44
5	0.00	0.02

标签0、1、2与原始模型相当。从标签3开始，性能下降开始明显，到标签4时差距进一步扩大，这是由于FastText模型的容量有限。因此，该分类器在标签0、1、2上表现良好，在标签3上也有一定表现，但性能有所下降。

混淆矩阵

       [ 2537  3098    65     4     0     0]
       [  944 23037  2491   123     0     0]
真实标签 [   26  4742  5048   533     1     0]
       [    4   434  1846  1105     8     0]
       [    0    38   213   544    24     0]
       [    0     0     0     0     2     0]
                       预测标签

该模型的准确率为68%，并且它更倾向于低估教育价值而不是高估。这种保守性对于过滤大量数据很有好处。