M

Math Fasttext Classifier

由 kenhktsui 开发
一个基于fasttext的文本分类器,用于将文本分类为数学类或其他类,适用于LLM预训练数据整理
下载量 124
发布时间 : 2/25/2025
模型介绍
内容详情
替代品

模型简介

该模型是一个高效的fasttext分类器,专门用于识别数学相关内容。它在160万条记录的平衡数据集上训练,测试F1得分达到0.99,特别适合用于增强LLM的数学能力预训练数据整理。

模型特点

高性能分类
在测试集上达到0.99的F1分数,能够准确区分数学和非数学内容
极速处理
在CPU上可实现约2000文档/秒的高吞吐量处理
数据整理专用
专为LLM预训练数据整理设计,特别适合增强模型的数学能力
平衡数据集
使用50:50比例的数学和非数学内容混合数据集训练

模型能力

文本分类
数学内容识别
高速文本处理

使用案例

LLM预训练
数学能力增强
用于筛选和增强LLM预训练数据中的数学相关内容
可帮助提升LLM的数学推理能力,如QWEN2.5-MATH所示例
内容过滤
数学内容筛选
从大量文本中快速识别数学相关内容
高效分离数学和非数学内容