R

Robertalexpt Base

由 eduagarcia 开发
RoBERTaLexPT-base 是一个葡萄牙语掩码语言模型,专门针对法律领域优化,通过LegalPT和CrawlPT语料库预训练。
下载量 366
发布时间 : 1/9/2024
模型介绍
内容详情
替代品

模型简介

该模型是基于RoBERTa架构的葡萄牙语语言模型,专注于法律文本处理,支持葡萄牙语(包括巴西和欧洲变体)。

模型特点

法律领域优化
专门针对葡萄牙语法律文本进行预训练和优化
多样化训练数据
结合法律领域(LegalPT)和通用领域(CrawlPT)数据进行训练
高性能
在葡萄牙语法律NLP任务中表现优于同类模型
数据去重
训练前使用MinHash算法对数据进行去重处理

模型能力

葡萄牙语文本理解
法律文本分析
命名实体识别
标记分类

使用案例

法律文本处理
法律文件分析
分析法律文件中的关键信息
在PortuLex基准测试中达到85.41%的平均F1分数
法律实体识别
识别法律文本中的特定实体
在LeNER数据集上达到90.73%的F1分数