L

Llm Data Textbook Quality Fasttext Classifier V2

由 kenhktsui 开发
这是一个基于fasttext构建的教育价值分类器,用于判断网络文本是否具有较高的教育价值,适用于大语言模型(LLM)预训练数据筛选。
下载量 3,651
发布时间 : 5/19/2024

模型简介

该分类器可以判断文本的教育价值水平,分为高、中、低三个等级,特别适用于LLM训练数据的质量筛选。

模型特点

高效CPU推理
基于fasttext构建,在CPU上每秒可分类超过2000个样本,适合实时使用
三级教育价值评估
提供高、中、低三个教育价值等级,比二元分类提供更细粒度的评估
量化模型支持
提供量化模型版本model_quantized.bin,优化推理效率

模型能力

文本分类
教育价值评估
数据质量筛选

使用案例

LLM训练数据筛选
预训练数据过滤
在LLM预训练前筛选高质量教育价值的文本数据
提高训练数据质量,改善模型性能
教育内容分析
教材内容评估
评估不同教育材料的教育价值水平
帮助识别高质量教育内容
AIbase
智启未来,您的人工智能解决方案智库
简体中文