urlbert-tiny-v3开源网址分类模型 - 免费部署精准识别四类网址

首页

Urlbert Tiny V3 Malicious Url Classifier

由 CrabInHoney 开发

轻量级BERT模型，专门针对网址分类任务进行微调，能分类良性、钓鱼、恶意软件和篡改四类网址

文本分类

Transformers

支持多种语言开源协议:Apache-2.0 #轻量级BERT #恶意网址检测 #钓鱼识别

下载量 452

发布时间 : 2/19/2025

模型简介

基于BERT架构的轻量级模型，用于检测和分类恶意网址，支持识别钓鱼网站、恶意软件分发站点和篡改链接

模型特点

轻量级设计

仅369万参数，模型权重大小14.8MB，适合资源受限环境部署

高准确率

整体准确率达98.37%，各类别F1分数均在94%以上

多类别检测

可同时识别钓鱼、恶意软件、篡改和良性四类网址

专门优化

针对URL结构特点优化的BERT变体，提升网址分类效果

模型能力

网址安全检测

钓鱼网站识别

恶意软件链接检测

篡改链接识别

实时网址分类

使用案例

网络安全防护

浏览器安全插件

集成到浏览器中实时检测访问网址的安全性

阻止用户访问钓鱼或恶意网站

邮件安全过滤

扫描邮件中的可疑链接

有效识别钓鱼邮件中的恶意链接

企业安全

网络流量监控

分析企业内网流量中的可疑网址访问

及时发现内部员工访问危险网站的行为

🚀 URLBERT-Tiny-v3恶意URL分类器

这是一个轻量级的BERT版本，专门针对将URL分为四类进行了微调：良性、网络钓鱼、恶意软件和网站篡改。

🚀 快速开始

URLBERT-Tiny-v3恶意URL分类器是一个轻量级的BERT版本，可将URL分为良性、网络钓鱼、恶意软件和网站篡改四类。你可以使用Hugging Face的transformers库来使用该模型进行URL分类。

✨ 主要特性

轻量级设计，参数仅369万个，模型权重大小为14.8MB。
针对URL分类进行微调，可准确识别良性、网络钓鱼、恶意软件和网站篡改四类URL。

📦 安装指南

文档未提供具体安装步骤，可参考Hugging Face的transformers库安装方法。

💻 使用示例

基础用法

from transformers import BertTokenizerFast, BertForSequenceClassification, pipeline
import torch

# Определение устройства (GPU или CPU)
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"Используемое устройство: {device}")

# Загрузка модели и токенизатора
model_name = "CrabInHoney/urlbert-tiny-v3-malicious-url-classifier"
tokenizer = BertTokenizerFast.from_pretrained(model_name)
model = BertForSequenceClassification.from_pretrained(model_name)
model.to(device)

# Создание pipeline для классификации
classifier = pipeline(
    "text-classification",
    model=model,
    tokenizer=tokenizer,
    device=0 if torch.cuda.is_available() else -1,
    return_all_scores=True
)

# Примеры URL для тестирования
test_urls = [
    "wikiobits.com/Obits/TonyProudfoot",
    "http://www.824555.com/app/member/SportOption.php?uid=guest&langx=gb",
]

# Маппинг меток на понятные названия классов
label_mapping = {
    "LABEL_0": "benign",
    "LABEL_1": "defacement",
    "LABEL_2": "malware",
    "LABEL_3": "phishing"
}

# Классификация URL
for url in test_urls:
    results = classifier(url)
    print(f"\nURL: {url}")
    for result in results[0]: 
        label = result['label']
        score = result['score']
        friendly_label = label_mapping.get(label, label)
        print(f"Класс: {friendly_label}, вероятность: {score:.4f}")

示例输出

URL: wikiobits.com/Obits/TonyProudfoot
Класс: benign, вероятность: 0.9953
Класс: defacement, вероятность: 0.0000
Класс: malware, вероятность: 0.0000
Класс: phishing, вероятность: 0.0046

URL: http://www.824555.com/app/member/SportOption.php?uid=guest&langx=gb
Класс: benign, вероятность: 0.0000
Класс: defacement, вероятность: 0.0001
Класс: malware, вероятность: 0.9998
Класс: phishing, вероятность: 0.0001

📚 详细文档

模型详情

属性	详情
模型大小	369万个参数
张量类型	F32
模型权重大小	14.8MB
基础模型	CrabInHoney/urlbert-tiny-base-v3
数据集	恶意URL数据集

模型评估结果

该模型在测试集上进行了评估，分类指标如下：

类别	精确率	召回率	F1分数
良性	0.987695	0.993717	0.990697
网站篡改	0.988510	0.998963	0.993709
恶意软件	0.988291	0.960332	0.974111
网络钓鱼	0.958425	0.930826	0.944423
准确率	0.983738	0.983738	0.983738
宏平均	0.980730	0.970959	0.975735
加权平均	0.983615	0.983738	0.983627