tsdae-lemone-mbert-base开源模型 - 免费转换法国法律文本为768维向量

首页

Tsdae Lemone Mbert Base

由 louisbrulenaudet 开发

这是一个基于mBERT的句子转换器模型，专门针对法国法律领域进行优化，能够将法律文本转换为768维向量表示。

文本嵌入法语开源协议:Apache-2.0 #法国法律语义分析 #多法典适配 #去噪自动编码

下载量 22

发布时间 : 12/17/2023

模型简介

该模型基于多语言BERT架构，通过法国法律文本数据进行领域适配训练，主要用于法律文本的语义相似度计算和特征提取。

模型特点

法律领域适配

专门针对法国法律文本进行优化，能更好理解法律术语和表达方式

多法典训练

训练数据涵盖法国10部主要法典，覆盖广泛法律领域

去噪自动编码

采用TSDAE(Transformer-based Sequential Denoising Auto-Encoder)训练方法，增强模型鲁棒性

模型能力

法律文本特征提取

法律文档语义搜索

法律文本聚类分析

法律文档相似度计算

使用案例

法律智能

法律文档检索

快速查找与查询语句语义相似的法律条文

提高法律研究和咨询效率

法律文本分类

基于语义特征对法律文档进行分类整理

自动化文档管理工作流程

法律科技

智能法律助手

为法律从业者提供相关条文推荐功能

提升法律服务质量

🚀 适用于法国法律实践的领域自适应mBERT模型

本模型是专为法国法律实践场景打造的领域自适应mBERT模型，借助 sentence-transformers 框架，能将句子和段落映射到768维的密集向量空间，可用于聚类、语义搜索等自然语言处理任务。模型基于多语言预训练，适配法国法律领域，能有效学习法律语言的内在特征，为下游任务提供有力支持。

🚀 快速开始

本模型可通过 sentence-transformers 或 HuggingFace Transformers 两种方式使用，以下为你详细介绍使用方法。

📦 安装指南

若使用 sentence-transformers，可通过以下命令安装：

pip install -U sentence-transformers

💻 使用示例

基础用法（Sentence-Transformers）

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer("louisbrulenaudet/tsdae-lemone-mbert-base")
embeddings = model.encode(sentences)
print(embeddings)

高级用法（HuggingFace Transformers）

若未安装 sentence-transformers，可按以下方式使用：

from transformers import AutoTokenizer, AutoModel
import torch


def cls_pooling(model_output, attention_mask):
    return model_output[0][:,0]


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained("louisbrulenaudet/tsdae-lemone-mbert-base")
model = AutoModel.from_pretrained("louisbrulenaudet/tsdae-lemone-mbert-base")

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors="pt")

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling. In this case, cls pooling.
sentence_embeddings = cls_pooling(model_output, encoded_input["attention_mask"])

print("Sentence embeddings:")
print(sentence_embeddings)

🔧 技术细节

训练参数

本模型的训练参数如下：

DataLoader：使用 torch.utils.data.dataloader.DataLoader，长度为25000，参数如下：

{'batch_size': 4, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

Loss：使用 sentence_transformers.losses.DenoisingAutoEncoderLoss.DenoisingAutoEncoderLoss。
fit() 方法参数：

{
    "epochs": 1,
    "evaluation_steps": 0,
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 3e-05
    },
    "scheduler": "constantlr",
    "steps_per_epoch": null,
    "warmup_steps": 10000,
    "weight_decay": 0
}

训练数据

训练数据库包含来自以下法国法律法典的100,000个随机句子，每个句子长度超过40个字符：

法国知识产权法典（Code de la propriété intellectuelle）
法国民法典（Code civil）
法国劳动法法典（Code du travail）
法国货币和金融法典（Code monétaire et financier）
法国商法典（Code de commerce）
法国刑法典（Code pénal）
法国消费者法典（Code de la consommation）
法国环境法典（Code de l'environnement）
法国通用税收法典（Code général des Impôts）
法国民事诉讼法典（Code de procédure civile）

每个法典的句子数量不超过15,000。

DenoisingAutoEncoderDataset 用于提供噪声数据和干净数据的配对实例，使去噪自编码器模型能够学习从噪声数据中重建或生成干净数据，有效捕捉法律文本的语言细微差别和领域特定特征。

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)

📄 许可证

本项目采用 Apache 2.0 许可证。

📚 详细文档

引用与作者

若你在研究中使用了本代码，请使用以下 BibTeX 引用：

@misc{louisbrulenaudet2023,
  author =       {Louis Brulé Naudet},
  title =        {Domain-adapted mBERT for French Legal Practice},
  year =         {2023},
  howpublished = {\url{https://huggingface.co/louisbrulenaudet/tsdae-lemone-mbert-base}},
}

反馈

若你有任何反馈，请通过 louisbrulenaudet@icloud.com 联系我们。

信息表格

属性	详情
模型类型	适用于法国法律实践的领域自适应mBERT模型
训练数据	来自法国知识产权法典、民法典、劳动法法典等10部法典的100,000个随机句子
许可证	Apache 2.0