L

Llm Data Textbook Quality Fasttext Classifier V1

由 kenhktsui 开发
基于fasttext构建的文本分类模型,用于判断文本是否达到教科书级数据质量,可作为大语言模型训练时的数据筛选工具。
下载量 35
发布时间 : 4/28/2024
模型介绍
内容详情
替代品

模型简介

该模型是llm-data-textbook-quality-classifier-v1的优化版本,不仅获得了更高的F1分数,还能在CPU上每秒分类超过2000个样本。

模型特点

高性能
在CPU上每秒可分类超过2000个样本,适合大规模数据处理。
高准确率
训练集F1分数达0.8695,测试集F1分数达0.8485,表现优异。
教科书级质量检测
专门针对教科书级数据质量进行优化,能有效筛选高质量训练数据。

模型能力

文本质量分类
数据筛选
大规模文本处理

使用案例

数据预处理
大语言模型训练数据筛选
在训练大语言模型前,使用该模型筛选高质量教科书级数据。
提高模型训练效果和生成质量
内容质量评估
教育内容质量评估
评估教育类文本是否达到教科书级质量标准。
帮助识别高质量教育内容