BERT-crime-analysis开源文本分类模型 - 精准识别犯罪描述对应的34种犯罪类型

首页

BERT Crime Analysis

由 Luna-Skywalker 开发

这是一个基于BERT-base-uncased微调的文本分类模型，专门用于根据犯罪描述识别犯罪类型，包含34个分类标签。

文本分类

Transformers

开源协议:Apache-2.0 #犯罪类型分类 #高准确率文本分类 #执法数据分析

下载量 44

发布时间 : 4/3/2024

模型简介

该模型是在芝加哥犯罪数据集上微调的BERT模型，能够根据文本描述准确分类犯罪类型，适用于公共安全领域的文本分析任务。

模型特点

高准确率

在评估集上达到93.8%的准确率和93.15%的加权F1分数

多类别分类

支持34种不同犯罪类型的分类识别

基于BERT

使用经过验证的BERT-base架构，具有强大的文本理解能力

模型能力

犯罪描述文本分类

多类别文本识别

自然语言理解

使用案例

公共安全

犯罪报告自动分类

自动对警方报告中的犯罪描述进行分类

可减少人工分类工作量，提高分类一致性

犯罪数据分析

用于犯罪类型分布统计和趋势分析

帮助执法部门识别犯罪热点和模式

🚀 文本分类模型

本模型基于预训练模型微调而来，用于文本分类任务，能根据犯罪描述精准判断犯罪类型，在评估集上取得了优异的指标成绩。

🚀 快速开始

开发者提示：请下载并在本地或Colab上试用该模型，这有助于Hugging Face判定该模型是否重要到足以提供无服务器API供大家使用。此外，该模型对所有人来说都是完全安全的。有一个文件被标记为不安全，仅仅是因为它是一个pickle文件。感谢大家的大力支持！

✨ 主要特性

模型概述

该模型是google-bert/bert-base-uncased在Kaggle数据集上的微调版本。它在评估集上取得了以下成绩：

宏f1值：89.44%
加权f1值：93.15%
准确率：93.80%
平衡准确率：90.42%

模型描述

这个google-bert/bert-base-uncased的微调版本擅长从犯罪描述中检测犯罪类型，共有34个标签。

📚 详细文档

训练和评估数据

评估宏f1值：89.44%
评估加权f1值：93.15%
评估准确率：93.79%
评估平衡准确率：90.42%

训练超参数

训练期间使用了以下超参数：

学习率：5e - 05
训练批次大小：32
评估批次大小：32
随机种子：42
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
训练轮数：30

训练结果

训练损失	轮数	步数	验证损失	宏f1值	加权f1值	准确率	平衡准确率
0.1859	1.0	5538	0.1297	0.8561	0.9249	0.9366	0.8571
0.1281	2.0	11076	0.1260	0.8702	0.9248	0.9369	0.8740
0.1279	3.0	16614	0.1251	0.8728	0.9314	0.9380	0.8749
0.1272	4.0	22152	0.1276	0.8652	0.9247	0.9367	0.8655
0.1266	5.0	27690	0.1256	0.8685	0.9252	0.9345	0.8724
0.1284	6.0	33228	0.1264	0.8668	0.9252	0.9345	0.8724
0.1272	7.0	38766	0.1247	0.8739	0.9313	0.9379	0.8748
0.1262	8.0	44304	0.1258	0.8892	0.9246	0.9366	0.9024
0.1263	9.0	49842	0.1251	0.9038	0.9310	0.9378	0.9041
0.1267	10.0	55380	0.1244	0.8897	0.9253	0.9345	0.9018
0.1271	11.0	60918	0.1251	0.8951	0.9325	0.9371	0.9036
0.1268	12.0	66456	0.1248	0.8944	0.9315	0.9380	0.9042
0.1254	13.0	71994	0.1247	0.9038	0.9314	0.9381	0.9043
0.126	14.0	77532	0.1263	0.8944	0.9314	0.9379	0.9042
0.1261	15.0	83070	0.1274	0.8891	0.9250	0.9348	0.9020
0.1253	16.0	88608	0.1241	0.8944	0.9315	0.9380	0.9042
0.1251	17.0	94146	0.1244	0.9042	0.9314	0.9380	0.9042
0.125	18.0	99684	0.1249	0.9041	0.9314	0.9380	0.9043
0.125	19.0	105222	0.1245	0.8942	0.9312	0.9380	0.9042
0.1257	20.0	110760	0.1248	0.9041	0.9313	0.9379	0.9042
0.125	21.0	116298	0.1248	0.9000	0.9254	0.9344	0.9018
0.1248	22.0	121836	0.1244	0.9041	0.9313	0.9379	0.9042
0.1246	23.0	127374	0.1245	0.9042	0.9315	0.9380	0.9042
0.1247	24.0	132912	0.1242	0.8943	0.9314	0.9380	0.9043
0.1245	25.0	138450	0.1242	0.9042	0.9315	0.9380	0.9042
0.1245	26.0	143988	0.1245	0.9042	0.9314	0.9381	0.9043
0.1245	27.0	149526	0.1242	0.8944	0.9314	0.9381	0.9043
0.1244	28.0	155064	0.1242	0.9336	0.9315	0.9381	0.9337
0.1243	29.0	160602	0.1243	0.8944	0.9314	0.9381	0.9043
0.1243	30.0	166140	0.1243	0.8944	0.9314	0.9381	0.9043

框架版本

Transformers 4.39.3
Pytorch 2.2.2
Datasets 2.18.0
Tokenizers 0.15.2

📄 许可证

本模型采用Apache-2.0许可证。

属性	详情
模型类型	文本分类模型
基础模型	google-bert/bert-base-uncased
评估指标	宏f1值、加权f1值、准确率、平衡准确率
库名称	transformers
推理类型	文本分类