vit-base-violence-detection开源模型 - 免费快速识别图像暴力与非暴力场景

首页

Vit Base Violence Detection

由 jaranohaal 开发

基于Vision Transformer(ViT)架构优化的暴力行为检测模型，能够将图像分类为暴力或非暴力场景。

图像分类

Transformers

英语开源协议:Apache-2.0 #暴力场景识别 #高精度检测 #视频监控

下载量 2,140

发布时间 : 6/19/2024

模型简介

该模型以google/vit-base-patch16-224-in21k为基础，使用现实生活暴力场景数据集进行训练，适用于内容审核、视频监控等场景。

模型特点

高准确率

测试准确率达到98.80%，能够有效识别暴力场景。

基于ViT架构

采用Vision Transformer架构，具有优秀的图像处理能力。

专业数据集训练

使用现实生活暴力场景数据集进行训练，识别效果更贴近实际应用。

模型能力

图像分类

暴力场景识别

内容审核

使用案例

安全监控

视频监控系统

实时监控视频流，自动识别暴力行为并报警。

提高监控效率，减少人工审核成本。

内容管理

社交媒体内容审核

自动检测用户上传的图片或视频中是否包含暴力内容。

帮助平台快速识别并处理违规内容。

家长控制

儿童保护软件

过滤含有暴力内容的图像和视频。

保护儿童免受不良内容影响。

🚀 ViT Base暴力检测

本模型是一个经过微调的视觉变换器（ViT）模型，用于暴力检测。它能有效识别图像中的暴力内容，为相关应用提供可靠的分类依据。

🚀 快速开始

该模型可用于需要检测图像中暴力内容的应用场景，包括但不限于内容审核、监控和家长控制软件。

✨ 主要特性

高精度识别：在测试中，Vit Base的准确率达到了98.80%，损失率仅为0.20038144290447235，能够准确区分暴力和非暴力图像。
基于优质预训练模型：此模型基于google/vit-base-patch16-224-in21k构建，并在Kaggle的Real Life Violence Situations数据集上进行了训练，具有良好的泛化能力。

📦 安装指南

文档未提及安装步骤，跳过该章节。

💻 使用示例

基础用法

import torch
from transformers import ViTForImageClassification, ViTFeatureExtractor
from PIL import Image

# Load the model and feature extractor
model = ViTForImageClassification.from_pretrained('jaranohaal/vit-base-violence-detection')
feature_extractor = ViTFeatureExtractor.from_pretrained('jaranohaal/vit-base-violence-detection')

# Load an image
image = Image.open('image.jpg')

# Preprocess the image
inputs = feature_extractor(images=image, return_tensors="pt")

# Perform inference
with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits
    predicted_class_idx = logits.argmax(-1).item()

# Print the predicted class
print("Predicted class:", model.config.id2label[predicted_class_idx])