bert-spam-classification-model开源模型 - 精准区分英文垃圾短信与正常短信

首页

Bert Spam Classification Model

由 fzn0x 开发

这是一个通过微调bert-base-uncased模型实现的英文垃圾短信分类模型，能够准确区分垃圾短信和正常短信。

文本分类

Safetensors

英语开源协议:MIT #英文短信分类 #BERT微调 #垃圾邮件过滤

下载量 209

发布时间 : 4/9/2025

模型简介

该模型基于BERT架构，专门用于英文短信的垃圾信息分类任务，可有效识别营销、诈骗等垃圾短信。

模型特点

高准确率分类

基于BERT强大的语义理解能力，能准确区分垃圾短信与正常短信

简单易用

提供开箱即用的预测接口，只需几行代码即可集成到应用中

轻量级模型

基于BERT-base而非更大的模型变体，在保持性能的同时减少资源消耗

模型能力

英文文本分类

垃圾短信检测

自然语言理解

使用案例

通信安全

短信过滤系统

集成到手机短信应用中自动过滤垃圾短信

减少用户收到的垃圾短信数量

客服系统防护

识别并拦截发送给客服系统的垃圾信息

提高客服工作效率

数据分析

垃圾短信分析

批量分析短信数据库中的垃圾信息比例

帮助了解垃圾短信趋势

🚀 微调的BERT-base-uncased预训练模型用于垃圾短信分类

本项目是一个经过微调的BERT-base-uncased预训练模型，专门用于对垃圾短信进行分类。它能有效识别短信是否为垃圾信息，为短信处理提供了高效的解决方案。

🚀 快速开始

本项目是我在自然语言处理（NLP）领域的第二个项目，我对bert-base-uncased模型进行了微调，以实现对垃圾短信的分类。相较于这个项目有了巨大的改进。

查看评估结果日志，请访问：GitHub仓库

如何使用这个模型

from transformers import BertTokenizer, BertForSequenceClassification
import torch

tokenizer = BertTokenizer.from_pretrained('fzn0x/bert-spam-classification-model')
model = BertForSequenceClassification.from_pretrained('fzn0x/bert-spam-classification-model')

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)
model.eval()

def model_predict(text: str):
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True).to(device)
    with torch.no_grad():
        outputs = model(**inputs)
    logits = outputs.logits
    prediction = torch.argmax(logits, dim=1).item()
    return 'SPAM' if prediction == 1 else 'HAM'

def predict():
    text = "Hello, do you know with this crypto you can be rich? contact us in 88888"
    predicted_label = model_predict(text)
    print(f"1. Predicted class: {predicted_label}") # EXPECT: SPAM

    text = "Help me richard!"
    predicted_label = model_predict(text)
    print(f"2. Predicted class: {predicted_label}") # EXPECT: HAM

    text = "You can buy loopstation for 100$, try buyloopstation.com"
    predicted_label = model_predict(text)
    print(f"3. Predicted class: {predicted_label}") # EXPECT: SPAM

    text = "Mate, I try to contact your phone, where are you?"
    predicted_label = model_predict(text)
    print(f"4. Predicted class: {predicted_label}") # EXPECT: HAM

if __name__ == "__main__":
    predict()

📚 引用

如果您使用了本仓库或其中的想法，请引用以下内容：

完整的BibTeX条目请见citations.bib。

Wolf等人，Transformers: State-of-the-Art Natural Language Processing，EMNLP 2020。ACL Anthology
Pedregosa等人，Scikit-learn: Machine Learning in Python，JMLR 2011。
Almeida & Gómez Hidalgo，SMS Spam Collection v.1，UCI Machine Learning Repository (2011)。Kaggle链接