许可证: cc
语言:
- 多语言
- 保加利亚语(bg)
- 捷克语(cs)
- 丹麦语(da)
- 德语(de)
- 希腊语(el)
- 英语(en)
- 西班牙语(es)
- 爱沙尼亚语(et)
- 芬兰语(fi)
- 法语(fr)
- 爱尔兰语(ga)
- 克罗地亚语(hr)
- 匈牙利语(hu)
- 意大利语(it)
- 立陶宛语(lt)
- 拉脱维亚语(lv)
- 马耳他语(mt)
- 荷兰语(nl)
- 波兰语(pl)
- 葡萄牙语(pt)
- 罗马尼亚语(ro)
- 斯洛伐克语(sk)
- 斯洛文尼亚语(sl)
- 瑞典语(sv)
标签:
- 多语言
模型卡片:joelito/legal-xlm-roberta-base
本模型是基于法律数据预训练的多语言模型,以XLM-R(基础版和大型版)为基底。预训练使用了涵盖24种语言的多法律语料库(Niklaus等人2023年)。
模型详情
模型描述
- 开发者: Joel Niklaus: HuggingFace主页;邮箱
- 模型类型: 基于Transformer的语言模型(RoBERTa)
- 支持语言: 保加利亚语、捷克语、丹麦语、德语、希腊语、英语、西班牙语、爱沙尼亚语、芬兰语、法语、爱尔兰语、克罗地亚语、匈牙利语、意大利语、立陶宛语、拉脱维亚语、马耳他语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、斯洛伐克语、斯洛文尼亚语、瑞典语
- 许可证: CC BY-SA
使用场景
直接使用与下游任务
由于未进行下一句预测训练,原始模型可用于掩码语言建模,但主要用途是微调下游任务。
需注意:本模型专为需要整句理解(可能含掩码元素)的任务设计,如序列分类、标记分类或问答。文本生成任务建议使用GPT-2等模型。
该模型专精法律领域数据,在非法律领域表现可能有所差异。
非适用场景
文本生成类任务建议使用GPT2等专用模型。
禁止使用本模型故意制造敌对或排斥性环境。本模型未针对人物或事件的事实性表述进行训练,因此生成此类内容超出模型能力范围。
偏见、风险与局限性
大量研究已揭示语言模型的偏见问题(参见Sheng等人(2021)和Bender等人(2021))。模型预测可能包含涉及受保护群体、身份特征及敏感社会职业的有害刻板印象。
使用建议
用户(包括直接使用者和下游开发者)应充分了解模型的潜在风险与局限性。
快速开始
参考HuggingFace教程。掩码词预测参见此教程。
训练详情
模型基于多法律语料库(Niklaus等人2023年)预训练。
核心训练步骤包括:
(a) 热启动:从原始XLM-R检查点(Conneau等人2019年)初始化
(b) 分词:训练128K BPE新分词器以适配法律文本,复用原始XLM-R词嵌入
(c) 预训练:继续训练100万/50万步(基础/大型模型),采用512样本批次、学习率线性增长与余弦衰减调度
(d) 句子采样:采用指数平滑采样器处理不同法域/语言的不均衡数据
(e) 大小写混合:支持大小写字母
(f) 长文本训练:基础模型采用15%掩码率与窗口注意力机制处理长法律文本
训练数据
多法律语料库(Niklaus等人2023年)
预处理
详见Niklaus等人2023年
超参数
- 批次大小:512样本
- 训练步数:基础/大型模型分别为100万/50万步
- 前5%训练步为热身阶段
- 学习率:线性增至1e-4
- 掩码率:基础/大型模型分别为20%/30%
评估
训练状态参见trainer_state.json,更多数据详见tensorboard。
下游任务(如LEXTREME(Niklaus等人2023年)或LEXGLUE(Chalkidis等人2021年))表现参见Niklaus等人(2023)1、2。
模型架构
RoBERTa架构,可通过以下代码查看:
from transformers import AutoModel
model = AutoModel.from_pretrained('joelito/legal-xlm-roberta-base')
print(model)
计算基础设施
硬件: Google TPU v3-8
软件: PyTorch, Transformers
引用
@article{Niklaus2023MultiLegalPileA6,
title={MultiLegalPile: A 689GB Multilingual Legal Corpus},
author={Joel Niklaus and Veton Matoshi and Matthias Sturmer and Ilias Chalkidis and Daniel E. Ho},
journal={ArXiv},
year={2023},
volume={abs/2306.02069}
}
模型卡片作者
Joel Niklaus: HuggingFace;邮箱
Veton Matoshi: HuggingFace;邮箱
联系方式
Joel Niklaus: HuggingFace;邮箱
Veton Matoshi: HuggingFace;邮箱