T

Topicclassifier NoURL

由 WebOrganizer 开发
基于网页文本内容(不使用URL信息)将网络内容划分为17个类别的分类模型
下载量 41.04k
发布时间 : 2/10/2025
模型介绍
内容详情
替代品

模型简介

该模型是在gte-base-en-v1.5基础上微调而成,专门用于网页文本内容的主题分类,支持17个类别。

模型特点

无URL依赖
仅依赖网页文本内容进行分类,不依赖URL信息
多阶段训练
使用Llama-3.1-8B和Llama-3.1-405B-FP8标注的数据进行两阶段训练
高效推理
支持去填充和内存高效注意力机制以提升运行效率

模型能力

网页文本分类
多类别概率分布输出

使用案例

内容管理
网页内容分类
对网页内容进行自动分类,便于内容管理和组织
输出17个类别的概率分布
信息过滤
成人内容过滤
识别并过滤成人内容
可识别成人内容类别