FormatClassifier-NoURL开源分类模型 - 免费将网页文本精准划分24类别

首页

Formatclassifier NoURL

由 WebOrganizer 开发

基于网页文本内容（不使用URL信息）将网络内容划分为24个类别的分类模型

文本分类

Transformers

其他#网页文本分类 #无URL依赖 #24种格式识别

下载量 730

发布时间 : 2/10/2025

模型简介

该模型是在gte-base-en-v1.5基础上微调而成，专门用于对网页文本内容进行格式分类，支持24种不同格式类型的识别。

模型特点

无URL分类

仅基于文本内容进行分类，不依赖URL信息

24种格式分类

支持从学术写作到用户评价等24种不同网页格式的识别

两阶段训练

使用Llama-3.1-8B和Llama-3.1-405B-FP8标注的数据进行两阶段微调

模型能力

网页内容分类

文本格式识别

多类别概率预测

使用案例

内容管理

网页内容归档

自动分类和组织大量网页内容

提高内容管理效率

信息检索

搜索结果过滤

根据内容格式过滤搜索结果

提升搜索相关性

🚀 WebOrganizer/FormatClassifier-NoURL

WebOrganizer/FormatClassifier-NoURL 是一个基于网页文本内容（不使用 URL 信息）将网页内容组织成 24 个类别的模型。它以 gte-base-en-v1.5 为基础模型，在特定的训练数据上进行微调，为网页内容分类提供了高效准确的解决方案。

[论文] [网站] [GitHub]

✨ 主要特性

精准分类：基于网页文本内容，将网页精准分类为 24 个类别。
高效微调：以 gte-base-en-v1.5 为基础模型，在特定训练数据上微调，提升分类效果。
灵活使用：支持多种输入格式，可根据需求灵活调整。

📦 安装指南

文档未提及具体安装步骤，可参考相关依赖库的安装说明，如 transformers、xformers 等。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("WebOrganizer/FormatClassifier-NoURL")
model = AutoModelForSequenceClassification.from_pretrained(
    "WebOrganizer/FormatClassifier-NoURL",
    trust_remote_code=True,
    use_memory_efficient_attention=False)

web_page = """How to make a good sandwich? [Click here to read article]"""

inputs = tokenizer([web_page], return_tensors="pt")
outputs = model(**inputs)

probs = outputs.logits.softmax(dim=-1)
print(probs.argmax(dim=-1))
# -> 6 ("Truncated" format, which covers incomplete content)

高级用法

import torch
AutoModelForSequenceClassification.from_pretrained(
    "WebOrganizer/FormatClassifier-NoURL",
    trust_remote_code=True,
    unpad_inputs=True,
    use_memory_efficient_attention=True,
    torch_dtype=torch.bfloat16
)

高级用法通过启用 unpadding 和内存高效注意力机制，使用高效的 gte-base-en-v1.5 实现，可提升推理效率。但需要安装 xformers，更多信息可参考这里。

📚 详细文档

该分类器期望输入格式如下：

{text}

你可以将模型的 logits 通过 softmax 转换，以获得以下 24 个类别的概率分布（按标签顺序，也可查看模型配置中的 id2label 和 label2id）：

学术写作
内容列表
创意写作
客户支持
评论区
常见问题解答
截断内容
知识文章
法律声明
清单文章
新闻文章
非虚构写作
关于（组织）
新闻（组织）
关于（个人）
个人博客
产品页面
问答论坛
垃圾邮件/广告
结构化数据
文档
音频转录
教程
用户评论

类别的完整定义可在分类配置中找到。

📄 许可证

文档未提及许可证信息。

🔧 技术细节

该模型基于 gte-base-en-v1.5，拥有 140M 参数，在以下训练数据上进行微调：

WebOrganizer/FormatAnnotations-Llama-3.1-8B：由 Llama-3.1-8B 标注的 100 万篇文档（第一阶段训练）
WebOrganizer/FormatAnnotations-Llama-3.1-405B-FP8：由 Llama-3.1-405B-FP8 标注的 10 万篇文档（第二阶段训练）

所有领域分类器

WebOrganizer/FormatClassifier
WebOrganizer/FormatClassifier-NoURL ← 你正在查看此项目！
WebOrganizer/TopicClassifier
WebOrganizer/TopicClassifier-NoURL

引用

@article{wettig2025organize,
  title={Organize the Web: Constructing Domains Enhances Pre-Training Data Curation},
  author={Alexander Wettig and Kyle Lo and Sewon Min and Hannaneh Hajishirzi and Danqi Chen and Luca Soldaini},
  journal={arXiv preprint arXiv:2502.10341},
  year={2025}
}