legal_t5_small_trans_en_cs开源法律翻译模型 - 免费实现英语到捷克语法律文件翻译

首页

Legal T5 Small Trans En Cs

由 SEBIS 开发

基于T5-small架构优化的法律文本翻译模型，专注英语至捷克语的法律文件翻译

机器翻译 #法律文本翻译 #英捷双语 #轻量级T5

下载量 18

发布时间 : 3/2/2022

模型简介

该模型专门用于将法律文本从英语翻译成捷克语，基于jrc-acquis、europarl和dcep三个平行语料库训练而成

模型特点

法律领域专业化

针对法律术语和句式进行优化训练，确保专业文本的准确翻译

轻量级架构

通过精简模型结构保持较高性能的同时降低计算资源需求

多源训练数据

整合JRC-ACQUIS、EUROPARL和DCEP三大权威法律语料库

模型能力

法律文本翻译

专业术语处理

长句结构解析

使用案例

法律文件处理

欧盟法律文书翻译

将欧盟法律文件从英语准确翻译为捷克语版本

BLEU评分达50.177

跨国法律协议处理

协助处理涉及英语和捷克语的双语法律协议

🚀 legal_t5_small_trans_en_cs模型

这是一个用于将英文法律文本翻译成捷克语的模型，在多个平行语料库上训练得到，为法律文本的翻译提供了有效的解决方案。

🚀 快速开始

legal_t5_small_trans_en_cs 模型可用于将英文法律文本翻译成捷克语。它首次发布于此仓库，并在来自 jrc - acquis、europarl 和 dcep 的三个平行语料库上进行训练。

✨ 主要特性

基于 t5 - small 模型构建，通过特定参数设置（dmodel = 512，dff = 2,048，8 头注意力机制，编码器和解码器各 6 层）缩小了 t5 基线模型的规模，参数约 6000 万。
可用于英文到捷克语的法律文本翻译。

📦 安装指南

暂未提及安装相关内容。

💻 使用示例

基础用法

以下是在 PyTorch 中使用该模型将英文法律文本翻译成捷克语的示例：

from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline

pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_en_cs"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_trans_en_cs", do_lower_case=False, 
                                            skip_special_tokens=True),
    device=0
)

en_text = "1 In the countries concerned, this certainly affects the priority assigned to making progress on the issue of final disposal, particularly of highly radioactive waste and irradiated fuel elements."

pipeline([en_text], max_length=512)

📚 详细文档

模型描述

legal_t5_small_trans_en_cs 基于 t5 - small 模型，在大量平行文本语料库上进行训练。这是一个较小的模型，通过使用 dmodel = 512，dff = 2,048，8 头注意力机制，且编码器和解码器各只有 6 层，缩小了 t5 基线模型的规模。该变体约有 6000 万个参数。

预期用途与限制

该模型可用于将英文法律文本翻译成捷克语。

训练数据

legal_t5_small_trans_en_cs 模型在 [JRC - ACQUIS](https://wt - public.emm4u.eu/Acquis/index_2.2.html)、EUROPARL 和 [DCEP](https://ec.europa.eu/jrc/en/language - technologies/dcep) 数据集上进行训练，这些数据集包含 500 万条平行文本。