语言: 英语
标签:
- 英语摘要模型
数据集:
- jrc-acquis
小部件:
- 文本: >
欧洲共同体委员会,鉴于建立欧洲共同体的条约,鉴于1999年5月17日关于牛奶及乳制品市场共同组织的理事会条例(EC)第1255/1999号[1],特别是其第15条,鉴于:(1) 委员会条例(EC)第2799/1999号[2]第7(1)条根据条例(EC)第1255/1999号第11(2)条所列因素,确定了用于动物饲料的脱脂牛奶及脱脂奶粉的援助金额。鉴于脱脂奶粉市场价格的变化、竞争性蛋白质市场价格的上涨以及脱脂奶粉供应的减少,援助金额应予以降低。(2) 因此,条例(EC)第2799/1999号应相应修订。(3) 牛奶及乳制品管理委员会未在其主席规定的时限内提出意见,特通过本条例:第1条 在条例(EC)第2799/1999号第7条中,第1款替换为以下内容:“1. 援助金额固定为:(a) 每100公斤蛋白质含量不低于非脂肪干提取物35.6%的脱脂牛奶,1.62欧元;(b) 每100公斤蛋白质含量不低于非脂肪干提取物31.4%但低于35.6%的脱脂牛奶,1.42欧元;(c) 每100公斤蛋白质含量不低于非脂肪干提取物35.6%的脱脂奶粉,20.00欧元;(d) 每100公斤蛋白质含量不低于非脂肪干提取物31.4%但低于35.6%的脱脂奶粉,17.64欧元。”第2条 本条例自其在《欧洲联盟官方公报》发布之次日起生效。本条例整体具有约束力并直接适用于所有成员国。2006年4月19日于布鲁塞尔完成。委员会成员玛丽安·菲舍尔·伯尔[1]《欧盟官方公报》L 160,1999年6月26日,第48页。最后修订于条例(EC)第1913/2005号(《欧盟官方公报》L 307,2005年11月25日,第2页)。[2]《欧盟官方公报》L 340,1999年12月31日,第3页。最后修订于条例(EC)第1194/2005号(《欧盟官方公报》L 194,2005年7月26日,第7页)。
legal_t5_small_summ_en 模型
用于英语法律文本摘要的模型。首次发布于此代码库。该模型基于jrc-acquis的三个平行语料库训练。
模型描述
legal_t5_small_summ_en基于t5-small
模型,并在大规模平行文本语料库上训练。这是一个较小的模型,通过使用dmodel = 512
、dff = 2,048
、8头注意力机制及编码器和解码器各6层,对基准t5模型进行了缩减。此变体约含6000万参数。
预期用途与限制
该模型可用于英语法律文本的摘要生成。
使用方法
以下是如何在PyTorch中使用该模型对英语法律文本进行摘要:
from transformers import AutoTokenizer, AutoModelWithLMHead, TranslationPipeline
pipeline = TranslationPipeline(
model=AutoModelWithLMHead.from_pretrained("SEBIS/legal_t5_small_summ_en"),
tokenizer=AutoTokenizer.from_pretrained(pretrained_model_name_or_path = "SEBIS/legal_t5_small_summ_en", do_lower_case=False,
skip_special_tokens=True),
device=0
)
en_text = "欧洲共同体委员会,鉴于建立欧洲共同体的条约,鉴于1999年5月17日关于牛奶及乳制品市场共同组织的理事会条例(EC)第1255/1999号[1],特别是其第15条,鉴于:(1) 委员会条例(EC)第2799/1999号[2]第7(1)条根据条例(EC)第1255/1999号第11(2)条所列因素,确定了用于动物饲料的脱脂牛奶及脱脂奶粉的援助金额。鉴于脱脂奶粉市场价格的变化、竞争性蛋白质市场价格的上涨以及脱脂奶粉供应的减少,援助金额应予以降低。(2) 因此,条例(EC)第2799/1999号应相应修订。(3) 牛奶及乳制品管理委员会未在其主席规定的时限内提出意见,特通过本条例:第1条 在条例(EC)第2799/1999号第7条中,第1款替换为以下内容:“1. 援助金额固定为:(a) 每100公斤蛋白质含量不低于非脂肪干提取物35.6%的脱脂牛奶,1.62欧元;(b) 每100公斤蛋白质含量不低于非脂肪干提取物31.4%但低于35.6%的脱脂牛奶,1.42欧元;(c) 每100公斤蛋白质含量不低于非脂肪干提取物35.6%的脱脂奶粉,20.00欧元;(d) 每100公斤蛋白质含量不低于非脂肪干提取物31.4%但低于35.6%的脱脂奶粉,17.64欧元。”第2条 本条例自其在《欧洲联盟官方公报》发布之次日起生效。本条例整体具有约束力并直接适用于所有成员国。2006年4月19日于布鲁塞尔完成。委员会成员玛丽安·菲舍尔·伯尔[1]《欧盟官方公报》L 160,1999年6月26日,第48页。最后修订于条例(EC)第1913/2005号(《欧盟官方公报》L 307,2005年11月25日,第2页)。[2]《欧盟官方公报》L 340,1999年12月31日,第3页。最后修订于条例(EC)第1194/2005号(《欧盟官方公报》L 194,2005年7月26日,第7页)。--------------------------------------------------"
pipeline([en_text], max_length=512)
训练数据
legal_t5_small_summ_en模型基于JRC-ACQUIS数据集训练,包含2.2万条文本。
训练过程
模型在单个TPU Pod V3-8上共训练25万步,序列长度512(批次大小64)。总参数量约2.2亿,采用编码器-解码器架构。优化器使用AdaFactor,并采用逆平方根学习率调度进行预训练。
预处理
使用包含8800万行平行语料(所有可能的语言对)训练的单字模型获取词汇表(采用字节对编码),该词汇表与此模型配合使用。
预训练
评估结果
当模型用于分类测试数据集时,取得以下结果:
测试结果:
模型 |
Rouge1 |
Rouge2 |
Rouge Lsum |
legal_t5_small_summ_en |
78.11 |
68.78 |
77.0 |
BibTeX条目及引用信息
由Ahmed Elnaggar/@Elnaggar_AI创建 | LinkedIn