🚀 neuralmind/bert-base-portuguese-cased
本模型是预训练模型 neuralmind/bert-base-portuguese-cased
的微调版本。它专门用于将巴西立法提案(PLs)分类为对妇女权利有利或不利,依据是提案的摘要(ementa)和全文内容。该模型旨在理解法律背景下性别影响的细微差别。
🚀 快速开始
此部分文档未提供快速开始的相关内容,可根据实际情况补充如何加载和使用该模型的代码示例等内容。
✨ 主要特性
- 特定任务适配:专门针对巴西立法提案进行微调,用于判断其对妇女权利的影响。
- 采用BERT架构:利用BERT在自然语言理解任务上的优势,识别法律文本中的模式和术语。
📦 安装指南
此部分文档未提供安装相关内容,若使用该模型,可参考 transformers
库的安装方式,例如使用以下命令:
pip install transformers
💻 使用示例
此部分文档未提供代码示例,以下为假设的使用示例:
基础用法
from transformers import AutoTokenizer, AutoModelForSequenceClassification
tokenizer = AutoTokenizer.from_pretrained('neuralmind/bert-base-portuguese-cased')
model = AutoModelForSequenceClassification.from_pretrained('neuralmind/bert-base-portuguese-cased')
text = "示例的立法提案文本内容"
inputs = tokenizer(text, return_tensors='pt')
outputs = model(**inputs)
predictions = outputs.logits.argmax(dim=1)
print(predictions)
📚 详细文档
模型描述
本模型是预训练模型 neuralmind/bert-base-portuguese-cased
的微调版本,专门用于将巴西立法提案(PLs)分类为对妇女权利有利或不利,依据是提案的摘要和全文内容。模型使用BERT架构,适用于自然语言理解任务,能够识别法律文本中与妇女权利相关的模式和术语。
使用和限制
- 主要用途:将巴西立法提案(PLs)分类为对妇女权利有利或不利。
- 目标用户:政治学家、记者、法律专业人士、性别平等倡导者、分析立法文本的研究人员,以及基于性别平等考虑对法律文件进行自动分类的自动化系统。
- 应用领域:
- 立法分析
- 性别平等倡导
- 政治和法律研究
- 法律文件自动分类
训练和评估数据
模型使用 自定义数据集 进行微调,该数据集包含巴西立法提案(PLs),特别关注与妇女权利相关的主题,包括提案的摘要和全文。
|
精确率 |
召回率 |
F1分数 |
支持样本数 |
类别0 |
0.94 |
0.53 |
0.67 |
114 |
类别1 |
0.35 |
0.88 |
0.50 |
33 |
准确率 |
|
|
0.61 |
147 |
宏平均 |
0.64 |
0.70 |
0.59 |
147 |
加权平均 |
0.81 |
0.61 |
0.64 |
147 |
更多关于模型评估的信息,请查看 项目仓库。
训练超参数
训练过程中使用了以下超参数:
- 学习率:1e-05
- 训练批次大小:64
- 评估批次大小:64
- 随机种子:5151
- 优化器:AdamW(PyTorch),
betas=(0.9, 0.999)
,epsilon=1e-08
(优化器无额外参数)
- 学习率调度器类型:线性
- 学习率调度器热身步数:150
- 训练轮数:19
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
准确率 |
F1分数 |
召回率 |
精确率 |
0.0801 |
1.0 |
18 |
0.0769 |
0.7411 |
0.4256 |
0.5 |
0.3705 |
0.0691 |
2.0 |
36 |
0.0709 |
0.75 |
0.4612 |
0.5172 |
0.8739 |
0.0647 |
3.0 |
54 |
0.0661 |
0.75 |
0.4612 |
0.5172 |
0.8739 |
0.0644 |
4.0 |
72 |
0.0648 |
0.6518 |
0.5774 |
0.5856 |
0.5753 |
0.0621 |
5.0 |
90 |
0.0632 |
0.7054 |
0.6424 |
0.6554 |
0.6367 |
0.0621 |
6.0 |
108 |
0.0627 |
0.7232 |
0.6265 |
0.6226 |
0.6319 |
0.0586 |
7.0 |
126 |
0.0595 |
0.75 |
0.6937 |
0.7079 |
0.6857 |
0.0547 |
8.0 |
144 |
0.0582 |
0.7768 |
0.7338 |
0.7597 |
0.7223 |
0.0509 |
9.0 |
162 |
0.0554 |
0.7768 |
0.7338 |
0.7597 |
0.7223 |
0.0462 |
10.0 |
180 |
0.0557 |
0.75 |
0.7091 |
0.7416 |
0.6998 |
0.0437 |
11.0 |
198 |
0.0532 |
0.7768 |
0.7382 |
0.7709 |
0.7264 |
0.0415 |
12.0 |
216 |
0.0515 |
0.7857 |
0.7466 |
0.7769 |
0.7341 |
0.0356 |
13.0 |
234 |
0.0545 |
0.8036 |
0.7547 |
0.7665 |
0.7461 |
0.0301 |
14.0 |
252 |
0.0543 |
0.8214 |
0.7770 |
0.7898 |
0.7675 |
0.0262 |
15.0 |
270 |
0.0541 |
0.8036 |
0.7594 |
0.7777 |
0.7481 |
0.0248 |
16.0 |
288 |
0.0583 |
0.8125 |
0.7584 |
0.7613 |
0.7557 |
0.0232 |
17.0 |
306 |
0.0593 |
0.8125 |
0.7635 |
0.7725 |
0.7562 |
框架版本
- Transformers:4.47.0
- PyTorch:2.5.1+cu121
- Datasets:3.2.0
- Tokenizers:0.21.0
伦理考虑
本模型用于对立法文本进行分类,可能会产生重大的社会和政治影响。因此,必须谨慎考虑如何解释和使用模型的输出,特别是在敏感环境中。
用于训练模型的数据集应定期审查和更新,以确保其反映当前的立法语言以及性别平等理解和斗争的模式。
🔧 技术细节
此模型基于BERT架构,BERT是一种预训练的自然语言处理模型,通过双向编码器表示从大规模文本数据中学习语言的语义和语法信息。在本任务中,模型针对巴西立法提案进行微调,以适应特定的分类任务。通过使用自定义数据集,模型学习到与妇女权利相关的文本特征和模式,从而能够准确分类提案对妇女权利的影响。
📄 许可证
本项目采用 MIT 许可证。