RoBERTalex开源模型 - 免费处理西班牙语法律文本，专注法律领域应用

首页

Robertalex

由 PlanTL-GOB-ES 开发

基于西班牙法律领域语料训练的RoBERTa基础模型，专注于西班牙语法律文本处理

大型语言模型

Transformers

西班牙语开源协议:Apache-2.0 #西班牙法律领域 #掩码语言建模 #RoBERTa架构

下载量 379

发布时间 : 3/2/2022

模型简介

该模型是基于Transformer架构的西班牙语掩码语言模型，专门针对法律领域文本进行优化，可用于填充掩码任务或作为下游任务的预训练基础

模型特点

法律领域专业化

使用8.9GB西班牙法律领域语料库进行预训练，在法律文本处理方面表现优异

高质量预处理

训练数据经过句子分割、语言检测、异常语句过滤及内容去重等严格预处理流程

多任务适应性

既可直接用于掩码填充任务，也可作为基础模型进行下游任务微调

模型能力

法律文本理解

掩码语言建模

文本特征提取

法律文本分类

法律命名实体识别

使用案例

法律文本处理

法律文本补全

自动补全法律文档中的缺失内容

示例显示能准确预测法律文本中的专业术语

法律问答系统

作为法律问答系统的基础模型

法律文档分类

对法律文档进行自动分类

🚀 RoBERTa基础模型：基于西班牙法律领域语料库训练

本模型基于西班牙法律领域语料库对RoBERTa基础模型进行训练，可用于掩码语言建模任务，在法律文本处理方面具有重要价值。

🚀 快速开始

模型概述

架构：roberta-base
语言：西班牙语
任务：填充掩码
数据：法律领域

模型描述

RoBERTalex 是一个基于Transformer的西班牙语掩码语言模型。它基于 RoBERTa 基础模型，并使用大型西班牙法律领域语料库进行预训练，该语料库包含总计8.9GB的文本。

预期用途和限制

RoBERTalex 模型仅可直接用于掩码语言建模以执行填充掩码任务（可尝试推理API或阅读下一部分）。不过，它也可用于在非生成式下游任务（如问答、文本分类或命名实体识别）上进行微调。你可以使用原始模型进行填充掩码任务，也可以将其微调用于下游任务。

使用示例

基础用法

>>> from transformers import pipeline
>>> from pprint import pprint
>>> unmasker = pipeline('fill-mask', model='PlanTL-GOB-ES/RoBERTalex')
>>> pprint(unmasker("La ley fue <mask> finalmente."))
[{'score': 0.21217258274555206,
  'sequence': ' La ley fue modificada finalmente.',
  'token': 5781,
  'token_str': ' modificada'},
 {'score': 0.20414969325065613,
  'sequence': ' La ley fue derogada finalmente.',
  'token': 15951,
  'token_str': ' derogada'},
 {'score': 0.19272951781749725,
  'sequence': ' La ley fue aprobada finalmente.',
  'token': 5534,
  'token_str': ' aprobada'},
 {'score': 0.061143241822719574,
  'sequence': ' La ley fue revisada finalmente.',
  'token': 14192,
  'token_str': ' revisada'},
 {'score': 0.041809432208538055,
  'sequence': ' La ley fue aplicada finalmente.',
  'token': 12208,
  'token_str': ' aplicada'}]

高级用法

>>> from transformers import RobertaTokenizer, RobertaModel
>>> tokenizer = RobertaTokenizer.from_pretrained('PlanTL-GOB-ES/RoBERTalex')
>>> model = RobertaModel.from_pretrained('PlanTL-GOB-ES/RoBERTalex')
>>> text = "Gracias a los datos legales se ha podido desarrollar este modelo del lenguaje."
>>> encoded_input = tokenizer(text, return_tensors='pt')
>>> output = model(**encoded_input)
>>> print(output.last_hidden_state.shape)
torch.Size([1, 16, 768])

局限性和偏差

在提交时，尚未采取措施来估计模型中嵌入的偏差。然而，我们深知由于语料库是通过在多个网络源上进行爬取技术收集的，我们的模型可能存在偏差。我们打算在未来对这些领域进行研究，如果研究完成，此模型卡片将进行更新。

训练

训练数据

西班牙法律领域语料库包含多个数字资源，总共有8.9GB的文本数据。其中一部分数据来自先前的工作。为了获得高质量的训练语料库，该语料库经过了一系列操作的预处理，包括句子分割、语言检测、过滤格式错误的句子以及重复内容的去重。在处理过程中，文档边界得以保留。

训练过程

训练语料库使用了原始 RoBERTA 模型中使用的字节版本的字节对编码（BPE）进行分词，词汇量大小为50,262个标记。

RoBERTalex 的预训练包括掩码语言模型训练，遵循RoBERTa基础模型的方法。该模型在2个计算节点上进行训练，每个节点配备4个16GB VRAM的NVIDIA V100 GPU，直至收敛。

评估

由于缺乏特定领域的评估数据，该模型在通用领域任务上进行了评估，并取得了合理的性能。我们在以下任务中对模型进行了微调：

数据集	指标	RoBERtalex
UD - POS	F1	0.9871
CoNLL - NERC	F1	0.8323
CAPITEL - POS	F1	0.9788
CAPITEL - NERC	F1	0.8394
STS	综合	0.7374
MLDoc	准确率	0.9417
PAWS - X	F1	0.7304
XNLI	准确率	0.7337

附加信息

作者

巴塞罗那超级计算中心的文本挖掘单元（TeMU）（bsc - temu@bsc.es）

联系信息

如需更多信息，请发送电子邮件至 <plantl - gob - es@bsc.es>

版权

版权归西班牙数字化与人工智能国务秘书处（SEDIA）所有（2022年）

许可信息

[Apache许可证，版本2.0](https://www.apache.org/licenses/LICENSE - 2.0)

资金支持

这项工作由西班牙数字化与人工智能国务秘书处（SEDIA）在Plan - TL框架内资助。

引用信息

@misc{gutierrezfandino2021legal,
      title={Spanish Legalese Language Model and Corpora}, 
      author={Asier Gutiérrez - Fandiño and Jordi Armengol - Estapé and Aitor Gonzalez - Agirre and Marta Villegas},
      year={2021},
      eprint={2110.12201},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}