fake-news-bert开源虚假新闻检测模型 - 按文本内容精准判断新闻真假

首页

Fake News Bert

由 dhruvpal 开发

这是一个基于DistilBERT的虚假新闻检测模型，能够根据文本内容将新闻文章分类为真实或虚假。

文本分类

Transformers

#轻量级BERT #英语新闻分类 #高精度检测

下载量 434

发布时间 : 2/7/2025

模型简介

该模型用于检测新闻文章的真实性，适用于社交媒体和新闻网站的虚假新闻检测。

模型特点

轻量级架构

基于DistilBERT，在保持精度的同时减少计算量。

高准确率

在测试集上达到92%的准确率。

易于集成

可通过Hugging Face Transformers库轻松加载和使用。

模型能力

虚假新闻检测

文本分类

使用案例

事实核查平台

社交媒体内容审核

用于检测社交媒体上的虚假新闻内容。

提高虚假新闻的检测效率。

新闻机构

新闻真实性验证

帮助新闻机构验证新闻内容的真实性。

减少虚假新闻的传播。

🚀 虚假新闻检测模型

本模型是一个经过微调的DistilBERT模型，用于检测新闻的真实性。它能够根据新闻文本内容，将其分类为真实新闻或虚假新闻，在社交媒体和新闻网站的虚假新闻检测场景中具有重要价值。

🚀 快速开始

你可以使用transformers库加载该模型并进行推理，示例代码如下：

from transformers import DistilBertTokenizerFast, DistilBertForSequenceClassification
import torch

tokenizer = DistilBertTokenizerFast.from_pretrained("your-model-id")
model = DistilBertForSequenceClassification.from_pretrained("your-model-id")

def predict(text):
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
    outputs = model(**inputs)
    probs = torch.nn.functional.softmax(outputs.logits, dim=-1)
    return "Fake News" if torch.argmax(probs) == 1 else "Real News"

text = "Breaking: Scientists discover a new element!"
print(predict(text))

✨ 主要特性

基于DistilBERT架构，在保证准确性的同时减少了计算量。
可用于检测新闻文章的真实性，能集成到事实核查平台、错误信息检测系统和社交媒体审核工具中。
可在特定领域的虚假新闻数据集上进一步微调。

📦 安装指南

文档未提及安装步骤，可参考transformers库的官方安装说明进行安装。

💻 使用示例

基础用法

from transformers import DistilBertTokenizerFast, DistilBertForSequenceClassification
import torch

tokenizer = DistilBertTokenizerFast.from_pretrained("your-model-id")
model = DistilBertForSequenceClassification.from_pretrained("your-model-id")

def predict(text):
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True, max_length=512)
    outputs = model(**inputs)
    probs = torch.nn.functional.softmax(outputs.logits, dim=-1)
    return "Fake News" if torch.argmax(probs) == 1 else "Real News"

text = "Breaking: Scientists discover a new element!"
print(predict(text))

📚 详细文档

模型详情

模型描述

属性	详情
开发者	Dhruv Pal
微调基础模型	`distilbert-base-uncased`
语言	英语
模型类型	基于Transformer的文本分类模型
许可证	MIT
预期用途	社交媒体和新闻网站的虚假新闻检测

模型来源

仓库：Hugging Face Model Hub
论文：无
演示：无

用途

直接使用

该模型可用于检测给定新闻文章是真实还是虚假。
可集成到事实核查平台、错误信息检测系统和社交媒体审核工具中。

下游使用

可在特定领域的虚假新闻数据集上进一步微调。
对媒体公司、记者和研究错误信息的研究人员有用。

超出适用范围的使用

该模型并非用于生成新闻内容。
对于英语以外的语言可能效果不佳。
不适用于需要外部知识进行事实核查的复杂声明。

偏差、风险和局限性

风险

基于训练数据集，模型可能对某些主题、来源或写作风格存在偏差。
存在误报（真实新闻被误分类为虚假新闻） 或漏报（虚假新闻被分类为真实新闻） 的可能性。
模型在分布外样本上的性能可能会下降。

建议

⚠️ 重要提示

用户不应仅依赖此模型来确定新闻的真实性。

💡 使用建议

建议使用人工验证并从多个来源交叉核对信息。

训练详情

训练数据

该模型在一个包含标记为真实或虚假的新闻文章的数据集上进行训练，该数据集包含来自可靠来源和错误信息网站的信息。

训练过程

预处理：
- 使用DistilBertTokenizerFast进行分词。
- 去除停用词和标点符号。
- 将文本转换为小写。
训练配置：
- 模型：distilbert-base-uncased
- 优化器：AdamW
- 批量大小：16
- 训练轮数：3
- 学习率：2e-5

计算资源

硬件：NVIDIA Tesla T4（Google Colab）
训练时间：约2小时

评估

测试数据

该模型在一个包含10,000篇新闻文章的保留测试集上进行评估。

指标

指标	得分
准确率	92%
F1分数	90%
精确率	91%
召回率	89%

环境影响

使用的硬件：NVIDIA Tesla T4
总计算时间：约2小时
碳排放：使用ML Impact Calculator估算

技术规格

模型架构

该模型基于DistilBERT，这是一种轻量级的Transformer架构，在保留准确性的同时减少了计算量。

依赖项

transformers
torch
datasets
scikit-learn

📄 许可证

该模型使用MIT许可证。

📚 引用

如果使用此模型，请按以下格式引用：

@misc{DhruvPal2025FakeNewsDetection,
  title={Fake News Detection with DistilBERT},
  author={Dhruv Pal},
  year={2025},
  howpublished={\url{https://huggingface.co/your-model-id}}
}