开源文本分类模型llm-data-textbook-quality-fasttext-classifier-v1，精准筛选教科书级数据！

Llm Data Textbook Quality Fasttext Classifier V1

由 kenhktsui 开发

基于fasttext构建的文本分类模型，用于判断文本是否达到教科书级数据质量，可作为大语言模型训练时的数据筛选工具。

下载量 35

发布时间 : 4/28/2024

模型简介

该模型是llm-data-textbook-quality-classifier-v1的优化版本，不仅获得了更高的F1分数，还能在CPU上每秒分类超过2000个样本。

高性能

在CPU上每秒可分类超过2000个样本，适合大规模数据处理。

高准确率

训练集F1分数达0.8695，测试集F1分数达0.8485，表现优异。

教科书级质量检测

专门针对教科书级数据质量进行优化，能有效筛选高质量训练数据。

文本质量分类

数据筛选

大规模文本处理

数据预处理

大语言模型训练数据筛选

在训练大语言模型前，使用该模型筛选高质量教科书级数据。

提高模型训练效果和生成质量

内容质量评估

教育内容质量评估

评估教育类文本是否达到教科书级质量标准。

帮助识别高质量教育内容

数据集	F1 分数
训练集	0.8695
测试集	0.8485

数据集	采样方式	平均质量分数
nampdn-ai/tiny-orca-textbooks	全量	0.8350
nampdn-ai/tiny-textbooks	全量	0.7535
SciPhi/textbooks-are-all-you-need-lite	全量	0.7202
vikp/textbook_quality_programming	全量	0.5447
BEE-spoke-data/fineweb-100k_en-med	全量	0.4754
pszemraj/simple_wikipedia_LM	全量	0.4704
mattymchen/refinedweb-3m	全量	0.2963
JeanKaddour/minipile	全量	0.2562