F

Formatclassifier NoURL

由 WebOrganizer 开发
基于网页文本内容(不使用URL信息)将网络内容划分为24个类别的分类模型
下载量 730
发布时间 : 2/10/2025
模型介绍
内容详情
替代品

模型简介

该模型是在gte-base-en-v1.5基础上微调而成,专门用于对网页文本内容进行格式分类,支持24种不同格式类型的识别。

模型特点

无URL分类
仅基于文本内容进行分类,不依赖URL信息
24种格式分类
支持从学术写作到用户评价等24种不同网页格式的识别
两阶段训练
使用Llama-3.1-8B和Llama-3.1-405B-FP8标注的数据进行两阶段微调

模型能力

网页内容分类
文本格式识别
多类别概率预测

使用案例

内容管理
网页内容归档
自动分类和组织大量网页内容
提高内容管理效率
信息检索
搜索结果过滤
根据内容格式过滤搜索结果
提升搜索相关性