语言:
- 英文
小部件:
- 文本: 盗窃3级
- 文本: 伪造罪
- 文本: 非法持有短管霰弹枪
- 文本: 二级刑事侵入
- 文本: 逃避警车追捕
- 文本: 合成麻醉药品非法持有
许可证: Apache-2.0
ROTA
快速罪行文本自动编码器

ROTA应用托管在Hugging Face空间: https://huggingface.co/spaces/rti-international/rota-app
刑事司法研究常需要将自由文本的罪行描述转换为总体指控类别以辅助分析。例如,自由文本罪行"逃避警车追捕"会被编码为"妨碍执法"的指控类别。由于自由文本罪行描述缺乏标准化且常需大批量分类,这可能导致研究人员进行耗时的手动处理。ROTA是一个将罪行文本转换为罪行代码的机器学习模型。
目前ROTA预测给定罪行文本的指控类别。指控类别是2009年NCRP代码手册:附录F中罪行代码的标题之一。
该模型基于公开数据训练,数据包含来自50个州的罪行对照表及三个额外手工标注的罪行文本数据集。
指控类别示例
数据预处理
输入文本通过一系列预处理步骤标准化。首先通过500多个不区分大小写的正则表达式识别常见拼写错误和缩写,将文本扩展为更完整、正确的英文文本。然后从文本中移除特定数据的前缀和后缀——例如某些州将法规作为文本的一部分。最后,去除输入中的标点符号(美元符号除外),移除单词间的多余空格,并将文本转为小写。
交叉验证性能
该模型使用3折交叉验证评估。除非另有说明,以下数字为3折的平均值。
本仓库中的模型基于所有可用数据训练。因此,通常可以预期实际性能会(不可知地)优于以下数字。
整体指标
指标 |
精确率 |
召回率 |
F1分数 |
宏平均 |
0.811 |
0.786 |
0.794 |
注: 这些是每折值的平均值,因此宏平均是每折所有类别宏平均的平均值。
每类别指标
类别 |
精确率 |
召回率 |
F1分数 |
支持数 |
加重攻击 |
0.954 |
0.954 |
0.954 |
4085 |
持械抢劫 |
0.961 |
0.955 |
0.958 |
1021 |
纵火 |
0.946 |
0.954 |
0.95 |
344 |
袭击公职人员 |
0.914 |
0.905 |
0.909 |
588 |
汽车盗窃 |
0.962 |
0.962 |
0.962 |
1660 |
敲诈勒索/恐吓 |
0.872 |
0.871 |
0.872 |
627 |
贿赂和利益冲突 |
0.784 |
0.796 |
0.79 |
216 |
入室盗窃 |
0.979 |
0.981 |
0.98 |
2214 |
虐待儿童 |
0.805 |
0.78 |
0.792 |
139 |
可卡因或快克违规未指定罪行 |
0.827 |
0.815 |
0.821 |
47 |
商业化性交易 |
0.818 |
0.788 |
0.802 |
666 |
藐视法庭 |
0.982 |
0.987 |
0.984 |
2952 |
导致未成年人犯罪 |
0.544 |
0.333 |
0.392 |
50 |
管制物质-未指定罪行 |
0.864 |
0.791 |
0.826 |
280 |
伪造(仅限联邦) |
0 |
0 |
0 |
2 |
财产破坏 |
0.97 |
0.968 |
0.969 |
2560 |
药物影响下驾驶 |
0.567 |
0.603 |
0.581 |
34 |
酒后驾驶 |
0.951 |
0.946 |
0.949 |
2195 |
醉酒驾驶 |
0.986 |
0.981 |
0.984 |
2391 |
毒品罪行-违规/毒品未指定 |
0.903 |
0.911 |
0.907 |
3100 |
醉酒/流浪/扰乱治安行为 |
0.856 |
0.861 |
0.858 |
380 |
贪污 |
0.865 |
0.759 |
0.809 |
100 |
贪污(仅限联邦) |
0 |
0 |
0 |
1 |
逃脱羁押 |
0.988 |
0.991 |
0.989 |
4035 |
家庭相关罪行 |
0.739 |
0.773 |
0.755 |
442 |
重罪-未指定 |
0.692 |
0.735 |
0.712 |
122 |
逃避起诉 |
0.46 |
0.407 |
0.425 |
38 |
强迫鸡奸 |
0.82 |
0.8 |
0.809 |
76 |
伪造(仅限联邦) |
0 |
0 |
0 |
2 |
伪造/欺诈 |
0.911 |
0.928 |
0.919 |
4687 |
欺诈(仅限联邦) |
0 |
0 |
0 |
2 |
大额盗窃-价值超过200美元 |
0.957 |
0.973 |
0.965 |
2412 |
惯犯 |
0.742 |
0.627 |
0.679 |
53 |
海洛因违规-未指定罪行 |
0.879 |
0.811 |
0.843 |
24 |
肇事逃逸 |
0.922 |
0.94 |
0.931 |
303 |
肇事逃逸-财产损失 |
0.929 |
0.918 |
0.923 |
362 |
移民违规 |
0.84 |
0.609 |
0.697 |
19 |
侵犯隐私 |
0.927 |
0.923 |
0.925 |
1235 |
青少年罪行 |
0.928 |
0.866 |
0.895 |
144 |
绑架 |
0.937 |
0.93 |
0.933 |
553 |
盗窃/偷窃-价值未知 |
0.955 |
0.945 |
0.95 |
3175 |
猥亵儿童 |
0.775 |
0.85 |
0.811 |
596 |
酒类法律违规 |
0.741 |
0.768 |
0.755 |
214 |
非车辆过失杀人 |
0.626 |
0.802 |
0.701 |
139 |
车辆过失杀人 |
0.79 |
0.853 |
0.819 |
117 |
大麻/哈希什违规-未指定罪行 |
0.741 |
0.662 |
0.699 |
62 |
轻罪未指定 |
0.63 |
0.243 |
0.347 |
57 |
道德/风化-罪行 |
0.774 |
0.764 |
0.769 |
412 |
谋杀 |
0.965 |
0.915 |
0.939 |
621 |
妨碍执法 |
0.939 |
0.947 |
0.943 |
4220 |
针对法院、立法机构和委员会的罪行 |
0.881 |
0.895 |
0.888 |
1965 |
假释违规 |
0.97 |
0.953 |
0.962 |
946 |
小额盗窃-价值低于200美元 |
0.965 |
0.761 |
0.85 |
139 |
持有/使用-可卡因或快克 |
0.893 |
0.928 |
0.908 |
68 |
持有/使用-毒品未指定 |
0.624 |
0.535 |
0.572 |
189 |
持有/使用-海洛因 |
0.884 |
0.852 |
0.866 |
25 |
持有/使用-大麻/哈希什 |
0.977 |
0.97 |
0.973 |
556 |
持有/使用-其他管制物质 |
0.975 |
0.965 |
0.97 |
3271 |
缓刑违规 |
0.963 |
0.953 |
0.958 |
1158 |
其他财产罪行 |
0.901 |
0.87 |
0.885 |
446 |
其他公共秩序罪行 |
0.7 |
0.721 |
0.71 |
1871 |
敲诈勒索(仅限联邦) |
0 |
0 |
0 |
2 |
强奸-暴力 |
0.842 |
0.873 |
0.857 |
641 |
强奸-法定-无暴力 |
0.707 |
0.55 |
0.611 |
140 |
监管违规(仅限联邦) |
0.847 |
0.567 |
0.674 |
70 |
暴动 |
0.784 |
0.605 |
0.68 |
119 |
其他性侵犯 |
0.836 |
0.836 |
0.836 |
971 |
简单攻击 |
0.976 |
0.967 |
0.972 |
4577 |
接收赃物 |
0.959 |
0.957 |
0.958 |
1193 |
贩运赃物 |
0.902 |
0.888 |
0.895 |
491 |
税法(仅限联邦) |
0.373 |
0.233 |
0.286 |
30 |
轻微交通违规 |
0.974 |
0.977 |
0.976 |
8699 |
贩运-可卡因或快克 |
0.896 |
0.951 |
0.922 |
185 |
贩运-毒品未指定 |
0.709 |
0.795 |
0.749 |
516 |
贩运-海洛因 |
0.871 |
0.92 |
0.894 |
54 |
贩运-其他管制物质 |
0.963 |
0.954 |
0.959 |
2832 |
贩运大麻/哈希什 |
0.921 |
0.943 |
0.932 |
255 |
侵入 |
0.974 |
0.98 |
0.977 |
1916 |
非持械抢劫 |
0.941 |
0.939 |
0.94 |
377 |
未经授权使用车辆 |
0.94 |
0.908 |
0.924 |
304 |
未指定杀人 |
0.61 |
0.554 |
0.577 |
60 |
其他暴力罪行 |
0.827 |
0.817 |
0.822 |
606 |
自愿/非过失杀人 |
0.619 |
0.513 |
0.542 |
54 |
武器罪行 |
0.943 |
0.949 |
0.946 |
2466 |
注: 支持数
是每折预测的平均观察数,因此每类的总观察数约为支持数
的3倍。
使用置信度分数
如果将分类概率解释为置信度分数,我们可以用它来过滤模型不太有信心的预测。我们在3折交叉验证中应用了这一过程。下表显示了在置信度分数截断值为p
时保留的预测数据比例。我们展示了仅在此部分自信预测子集上评估时的整体准确率和MCC指标。
|
截断值 |
保留百分比 |
MCC |
准确率 |
0 |
0.85 |
0.952 |
0.96 |
0.961 |
1 |
0.9 |
0.943 |
0.964 |
0.965 |
2 |
0.95 |
0.928 |
0.97 |
0.971 |
3 |
0.975 |
0.912 |
0.975 |
0.976 |
4 |
0.99 |
0.886 |
0.982 |
0.983 |
5 |
0.999 |
0.733 |
0.995 |
0.996 |