T

Topicclassifier

由 WebOrganizer 开发
基于gte-base-en-v1.5微调的主题分类模型,可将网页内容分类至24个类别
下载量 2,288
发布时间 : 2/10/2025
模型介绍
内容详情
替代品

模型简介

该模型能够根据网页URL和文本内容,将网络内容自动归类至24个预定义主题类别中。适用于内容过滤、信息组织等场景。

模型特点

双阶段训练
先使用Llama-3.1-8B标注的100万文档训练,再使用Llama-3.1-405B-FP8标注的10万文档精调
URL+文本双输入
同时考虑网页URL和文本内容进行综合分类判断
高效推理支持
支持解填充和内存高效注意力机制,可启用xformers加速

模型能力

网页内容分类
多类别概率预测
文本理解

使用案例

内容管理
网页自动分类
对抓取的网页内容进行自动主题归类
准确识别24种主题类别
信息过滤
成人内容过滤
识别并过滤不当内容
可准确识别成人内容类别