语言:
许可证: Apache-2.0
标签:
数据集:
评估指标:
示例输入:
- text: "法律最终被了。"
- text: "法院驳回了保护申诉。"
- text: "在当前框架内存在法律依据。"
基于西班牙法律领域语料训练的RoBERTa基础模型
目录
点击展开
概述
- 架构: roberta-base
- 语言: 西班牙语
- 任务: 填充掩码
- 数据领域: 法律
模型描述
RoBERTalex是基于Transformer的西班牙语掩码语言模型。该模型以RoBERTa基础模型为基底,使用总计8.9GB的西班牙法律领域语料库进行预训练。
预期用途与限制
RoBERTalex模型目前可直接用于掩码语言建模任务(可通过推理API或参考下一节使用)。同时该模型也适合在下游任务(如问答系统、文本分类或命名实体识别)中进行微调。用户既可直接使用原始模型进行掩码填充,也可针对特定任务进行微调。
使用方法
使用示例:
>>> from transformers import pipeline
>>> from pprint import pprint
>>> unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/RoBERTalex')
>>> pprint(unmasker("法律最终被<mask>了。"))
[{'score': 0.21217258274555206,
'sequence': ' 法律最终被修改了。',
'token': 5781,
'token_str': ' 修改'},
{'score': 0.20414969325065613,
'sequence': ' 法律最终被废除了。',
'token': 15951,
'token_str': ' 废除'},
{'score': 0.19272951781749725,
'sequence': ' 法律最终被批准了。',
'token': 5534,
'token_str': ' 批准'},
{'score': 0.061143241822719574,
'sequence': ' 法律最终被修订了。',
'token': 14192,
'token_str': ' 修订'},
{'score': 0.041809432208538055,
'sequence': ' 法律最终被实施了。',
'token': 12208,
'token_str': ' 实施'}]
PyTorch特征提取示例:
>>> from transformers import RobertaTokenizer, RobertaModel
>>> tokenizer = RobertaTokenizer.from_pretrained('PlanTL-GOB-ES/RoBERTalex')
>>> model = RobertaModel.from_pretrained('PlanTL-GOB-ES/RoBERTalex')
>>> text = "得益于法律数据,我们成功开发了这个语言模型。"
>>> encoded_input = tokenizer(text, return_tensors='pt')
>>> output = model(**encoded_input)
>>> print(output.last_hidden_state.shape)
torch.Size([1, 16, 768])
局限性与偏差
当前版本尚未对模型潜在偏差进行系统评估。需要注意的是,由于训练语料来自网络爬取,模型可能存在偏差。我们计划未来开展相关研究,届时将更新本说明文档。
训练数据
西班牙法律领域语料库整合了多个数字资源,包含总计8.9GB文本数据。部分数据源自先前研究。通过句子分割、语言检测、异常语句过滤及内容去重等预处理流程,确保了语料质量。处理过程中保留了文档边界信息。
训练流程
采用原始RoBERTA模型的字节级BPE分词方案,词表规模50,262。预训练遵循RoBERTa基础的掩码语言建模方法,使用2个计算节点(各配备4张16GB显存的NVIDIA V100 GPU)训练至收敛。
评估
因缺乏领域专用评估数据,模型在通用任务上表现如下(经微调后):
数据集 |
指标 |
RoBERtalex |
UD-POS |
F1 |
0.9871 |
CoNLL-NERC |
F1 |
0.8323 |
CAPITEL-POS |
F1 |
0.9788 |
CAPITEL-NERC |
F1 |
0.8394 |
STS |
综合得分 |
0.7374 |
MLDoc |
准确率 |
0.9417 |
PAWS-X |
F1 |
0.7304 |
XNLI |
准确率 |
0.7337 |
补充信息
作者
巴塞罗那超级计算中心文本挖掘单元(bsc-temu@bsc.es)
联系方式
如需更多信息,请发送邮件至plantl-gob-es@bsc.es
版权
西班牙数字化与人工智能国务秘书处(SEDIA)版权所有(2022)
许可信息
Apache License, Version 2.0
资助方
本项目由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL计划框架下资助
引用信息
@misc{gutierrezfandino2021legal,
title={Spanish Legalese Language Model and Corpora},
author={Asier Gutiérrez-Fandiño and Jordi Armengol-Estapé and Aitor Gonzalez-Agirre and Marta Villegas},
year={2021},
eprint={2110.12201},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
免责声明
本仓库发布的模型为通用目的设计,可供第三方使用。这些模型可能存在偏差或其他非预期缺陷。
当第三方部署或提供基于这些模型的系统/服务时,应注意其有责任规避使用风险,并确保符合人工智能应用相关法规。
模型所有者(SEDIA)及创建者(BSC)均不对第三方使用结果承担任何责任。
(注:此处保留西班牙语原文的翻译部分,符合双语免责声明的常见格式要求)