legal-bert-dutch-english开源模型 - 免费支持荷英双语法律文本处理

首页

Legal Bert Dutch English

由 Gerwin 开发

基于mBERT在法律文档上进一步训练的多语言BERT模型，支持荷兰语和英语法律文本处理

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #法律文本分类 #荷英双语 #欧盟法律优化

下载量 388

发布时间 : 7/8/2022

模型简介

该模型是在荷兰语和英语法律文档（包括法规、决定、指令及议会质询文件）上进一步训练的BERT模型，专为法律领域文本分析优化

模型特点

法律领域优化

在18.4万份法律文档上专门训练，提升法律文本处理能力

双语支持

同时支持荷兰语和英语法律文本处理

高效训练

采用6万步训练轮次，在有限数据量下达到最佳性能

模型能力

法律文本分类

多语言文本理解

法律文档分析

使用案例

法律文档处理

欧盟法律文件分类

对Multi-EURLEX数据集中的荷兰语和英语法律文件进行分类

在荷兰语分类任务中获得0.786的F1分数

银行法律文档分析

处理荷兰合作银行的长篇幅法律文档分类

获得0.732的F1分数

🚀 适用于荷兰语和英语的法律BERT模型

这是一个基于mBERT在法律文档上进行进一步训练的BERT模型。相关论文可在此处下载。

✨ 主要特性

多语言支持：支持荷兰语和英语两种语言，适用于处理这两种语言的法律文本。
基于预训练模型：在mBERT的基础上进行进一步训练，利用了预训练模型的优势。

📦 安装指南

本模型可通过transformers库进行加载，以下是安装和使用的示例代码：

from transformers import AutoTokenizer, AutoModel, TFAutoModel
tokenizer = AutoTokenizer.from_pretrained("Gerwin/legal-bert-dutch-english")
model = AutoModel.from_pretrained("Gerwin/legal-bert-dutch-english")  # PyTorch
model = TFAutoModel.from_pretrained("Gerwin/legal-bert-dutch-english")  # TensorFlow

📚 详细文档

数据

该模型的进一步训练方式与EurlexBERT相同：收集了荷兰语和英语的法规、决定、指令和议会问题等文档。总共使用了18.4万份文档，约2.95亿个单词来进一步训练该模型，这不到原始BERT模型训练数据规模的9%。进一步训练进行了6万步，因为与10万步的检查点（原始BERT论文中建议的步数）相比，6万步显示出更好的效果。使用超过10万步的训练并没有带来更多的益处。

基准测试

以下是一些流行的BERT模型与本模型的对比。这些基准测试的微调过程对于每个预训练模型都是相同的，论文中对这些过程有更详细的解释。你可以通过优化微调过程为个别模型获得更高的分数。表格显示了加权F1分数。

法律主题分类

模型	Multi-EURLEX (NL)
legal-bert-dutch-english	0.786
mBERT	0.779
BERTje	0.775

模型	Multi-EURLEX (EN)
legal-bert-dutch-english	0.786
mBERT	0.772
BERT	0.791
LegalBERT	0.791
EurlexBERT	0.795

多类别分类（荷兰合作银行数据集）

该数据集并非开源数据集，但它仍然是一个有趣的案例，因为该数据集包含了需要进行分类的荷兰语和英语法律文档。该数据集由8000份长法律文档（2000份荷兰语文档和6000份英语文档）组成，共有30个类别。使用荷兰语和英语BERT模型的组合架构并没有带来更好的效果，因为两种语言的文档可能属于同一类别。

模型	荷兰合作银行数据集
legal-bert-dutch-english	0.732
mBERT	0.713

📄 许可证

本项目采用Apache-2.0许可证。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

uer

2,694

智启未来，您的人工智能解决方案智库

简体中文