语言: 中文
标签:
- 网络安全
- 恶意网址检测
- BERT
- 变形金刚模型
- 钓鱼检测
许可证: Apache-2.0
恶意网址检测模型
一个经过微调的 BERT-LoRA 模型,用于检测恶意网址,包括钓鱼、恶意软件和篡改威胁。
模型描述
该模型是一个 基于BERT的微调分类器,旨在实时检测 恶意网址。它采用 低秩自适应(LoRA) 进行高效微调,在保持高精度的同时降低计算成本。
模型将网址分为 四类:
其验证准确率达到 98%,F1分数为0.965,确保了强大的检测能力。
预期用途
使用场景
- 网络安全工具的实时网址分类
- 在线安全的钓鱼和恶意软件检测
- 集成到浏览器扩展中,提供即时威胁警报
- 安全运营中心(SOC)的安全监控
模型详情
- 模型类型: 基于BERT的网址分类器
- 微调方法: LoRA(低秩自适应)
- 基础模型:
bert-base-uncased
- 参数数量: 110M
- 数据集: Kaggle恶意网址数据集(约651,191个样本)
- 最大序列长度:
128
- 框架: 🤗
transformers
、torch
、peft
使用方法
您可以直接使用🤗 Transformers 调用该模型:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
model_name = "your-huggingface-model-name"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
url = "http://example.com/login"
inputs = tokenizer(url, return_tensors="pt", truncation=True, padding=True, max_length=128)
with torch.no_grad():
outputs = model(**inputs)
prediction = torch.argmax(outputs.logits).item()
label_map = {0: "良性", 1: "篡改", 2: "钓鱼", 3: "恶意软件"}
print(f"预测结果: {label_map[prediction]}")
训练详情
- 批量大小:
16
- 训练轮数:
5
- 学习率:
2e-5
- 优化器: 带权重衰减的AdamW
- 损失函数: 加权交叉熵
- 评估策略: 基于轮次
- 微调策略: 应用于BERT层的LoRA
评估结果
指标 |
值 |
准确率 |
98% |
精确率 |
0.96 |
召回率 |
0.97 |
F1分数 |
0.965 |
分类性能
类别 |
精确率 |
召回率 |
F1分数 |
良性 |
0.98 |
0.99 |
0.985 |
篡改 |
0.98 |
0.99 |
0.985 |
钓鱼 |
0.93 |
0.94 |
0.935 |
恶意软件 |
0.95 |
0.96 |
0.955 |
部署选项
Streamlit网页应用
- 可部署在 Streamlit Cloud、AWS或Google Cloud 上。
- 提供 实时网址分析 和用户友好界面。
浏览器扩展(计划中)
- 实时扫描 访问的网页。
- 提供 动态威胁警报 和置信度评分。
API集成
- 支持批量网址分析的REST API。
- 适用于 安全运营中心(SOC)。
局限性及偏差
- 可能误分类复杂的钓鱼网址,尤其是模仿合法网站的网址。
- 需要定期更新 以应对不断演变的威胁。
- 潜在偏差 如果训练数据未涵盖未来威胁。
训练数据及引用
数据来源
数据集来自 Kaggle恶意网址数据集:
📌 数据集链接
BibTeX引用
@article{maliciousurl2025,
author = {Gleyzie Tongo, Dr. Farnaz Farid, Dr. Ala Al-Areqi, Dr. Farhad Ahamed},
title = {Fine-Tuned BERT for Malicious URL Detection},
year = {2025},
institution = {Western Sydney University}
}
联系方式
如有疑问、合作或反馈,请通过LinkedIn联系:
🔗 Gleyzie Tongo