语言: 意大利语
标签:
- 意大利语摘要模型
数据集:
- jrc-acquis
小部件:
- 文本: "欧洲共同体委员会,鉴于建立欧洲共同体的条约,鉴于1992年7月14日理事会关于农产品和食品特性认证的第(EEC)2082/92号条例(1),特别是第9条第1款,考虑到以下事项:(1)根据第(EEC)2082/92号条例第7条,芬兰向委员会提交了将“Kalakukko”名称注册为特性认证的申请。(2)“传统特色保证”的表述仅适用于上述注册表中的名称。(3)根据上述条例第8条,在《欧洲共同体官方公报》(2)上公布本条例附件所列名称后,未向委员会提交任何反对声明。(4)因此,附件中的名称可被列入特性认证注册表,并根据第(EEC)2082/92号条例第13条第2款,在共同体内作为传统特色保证享受共同体层面的保护。(5)本条例附件是对委员会第(EC)2301/97号条例(3)附件的补充,最近一次由第(EC)688/2002号条例(4)修订,特此通过本条例:第1条 本条例附件中的名称被添加到第(EC)2301/97号条例的附件中,并根据第(EEC)2082/92号条例第9条第1款,列入特性认证注册表。该名称根据上述条例第13条第2款受到保护。第2条 本条例自《欧洲共同体官方公报》公布后的第二十日起生效。本条例所有部分均具约束力,并直接适用于各成员国。2002年7月15日于布鲁塞尔完成。委员会成员弗朗茨·菲施勒 (1)《欧共体官方公报》L 208,1992年7月24日,第9页。(2)《欧共体官方公报》C 235,2001年8月21日,第12页。(3)《欧共体官方公报》L 319,1997年11月21日,第8页。(4)《欧共体官方公报》L 106,2002年4月23日,第7页。附件 面包、糕点、糖果或饼干类产品 - Kalakukko"
legal_t5_small_summ_it 模型
用于意大利语法律文本摘要的模型。首次发布于此仓库。该模型基于jrc-acquis的三个平行语料库训练而成。
模型描述
legal_t5_small_summ_it基于t5-small
模型,并在大量平行文本语料库上训练。这是一个较小的模型,通过使用dmodel = 512
、dff = 2,048
、8头注意力机制以及编码器和解码器各6层,对t5基线模型进行了缩放。此变体约有6000万参数。
预期用途与限制
该模型可用于意大利语法律文本的摘要生成。
使用方法
以下是如何在PyTorch中使用此模型对意大利语法律文本进行摘要:
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_summ_it"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_summ_it", do_lower_case=False,
skip_special_tokens=True),
device=0
)
it_text = "欧洲共同体委员会,鉴于建立欧洲共同体的条约,鉴于1992年7月14日理事会关于农产品和食品特性认证的第(EEC)2082/92号条例(1),特别是第9条第1款,考虑到以下事项:(1)根据第(EEC)2082/92号条例第7条,芬兰向委员会提交了将“Kalakukko”名称注册为特性认证的申请。(2)“传统特色保证”的表述仅适用于上述注册表中的名称。(3)根据上述条例第8条,在《欧洲共同体官方公报》(2)上公布本条例附件所列名称后,未向委员会提交任何反对声明。(4)因此,附件中的名称可被列入特性认证注册表,并根据第(EEC)2082/92号条例第13条第2款,在共同体内作为传统特色保证享受共同体层面的保护。(5)本条例附件是对委员会第(EC)2301/97号条例(3)附件的补充,最近一次由第(EC)688/2002号条例(4)修订,特此通过本条例:第1条 本条例附件中的名称被添加到第(EC)2301/97号条例的附件中,并根据第(EEC)2082/92号条例第9条第1款,列入特性认证注册表。该名称根据上述条例第13条第2款受到保护。第2条 本条例自《欧洲共同体官方公报》公布后的第二十日起生效。本条例所有部分均具约束力,并直接适用于各成员国。2002年7月15日于布鲁塞尔完成。委员会成员弗朗茨·菲施勒 (1)《欧共体官方公报》L 208,1992年7月24日,第9页。(2)《欧共体官方公报》C 235,2001年8月21日,第12页。(3)《欧共体官方公报》L 319,1997年11月21日,第8页。(4)《欧共体官方公报》L 106,2002年4月23日,第7页。附件 面包、糕点、糖果或饼干类产品 - Kalakukko"
pipeline([it_text], max_length=512)
训练数据
legal_t5_small_summ_it模型在JRC-ACQUIS数据集上训练,包含2.2万条文本。
训练过程
模型在单个TPU Pod V3-8上共训练了25万步,序列长度为512(批量大小为64)。总参数量约为2.2亿,采用编码器-解码器架构。优化器使用AdaFactor,并采用逆平方根学习率调度进行预训练。
预处理
使用来自平行语料库(所有可能的语言对)的8800万行文本训练了一个unigram模型,以获取词汇表(采用字节对编码),该词汇表与此模型一起使用。
预训练
评估结果
当模型用于分类测试数据集时,获得以下结果:
测试结果:
模型 |
Rouge1 |
Rouge2 |
Rouge Lsum |
legal_t5_small_summ_it |
75.07 |
65.53 |
73.85 |
BibTeX条目及引用信息
由Ahmed Elnaggar/@Elnaggar_AI创建 | LinkedIn