语言: 捷克语 英语
标签:
- 翻译 捷克语 英语 模型
数据集:
- dcep europarl jrc-acquis
小部件:
- 文本: "4) 含PFOS成分的在用产品清单:由于2000年后PFOS产量大幅下降,最主要的排放源很可能是过去的使用行为,但这些排放源至今仍实际存在。"
legal_t5_small_trans_cs_en_small_finetuned模型
该模型用于将法律文本从捷克语翻译成英语,首次发布于此代码库。模型首先通过无监督任务对所有翻译数据进行预训练,随后基于jrc-acquis、europarl和dcep三个平行语料库进行训练。
模型描述
legal_t5_small_trans_cs_en_small_finetuned最初通过"掩码语言建模"无监督任务在训练集全量数据上进行预训练。该模型基于t5-small
架构,通过将基础模型的dmodel
缩减至512、dff
降至2048、采用8头注意力机制以及仅保留6层编码器-解码器结构实现轻量化,参数量约6000万。
使用范围与限制
本模型适用于捷克语法律文本到英语的翻译任务。
使用方法
通过PyTorch调用模型进行翻译的示例代码如下:
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_trans_cs_en_small_finetuned"),
tokenizer=AutoTokenizer.from_pretrained(
pretrained_model_name_or_path="SEBIS/legal_t5_small_trans_cs_en",
do_lower_case=False,
skip_special_tokens=True),
device=0
)
cs_text = "4) Seznam užívaných výrobků s obsahem PFOS: Kvůli značnému poklesu výroby PFOS po roce 2000 představují největší zdroj emisí patrně dřívější využití, která však nadále reálně existují."
pipeline([cs_text], max_length=512)
训练数据
模型在JRC-ACQUIS、EUROPARL和DCEP组成的500万平行文本语料库上,同时进行有监督(特定语言对)和无监督(全语言对数据)训练。
训练过程
在TPU Pod V3-8上完成25万步训练,序列长度512(批次大小4096)。采用编码器-解码器架构,使用AdaFactor优化器配合平方根倒数学习率调度进行预训练。
预处理
基于8800万行平行语料(全语言对)训练unigram模型获取BPE词汇表。
预训练
使用42种语言对的混合数据进行预训练,核心任务为预测随机掩码的句子片段。
评估结果
在翻译测试集上取得如下表现:
测试结果:
模型 |
BLEU分数 |
legal_t5_small_trans_cs_en_small_finetuned |
56.936 |
引用信息
由Ahmed Elnaggar/@Elnaggar_AI创建 | LinkedIn