语言:
- 匈牙利语
标签:
- 摘要生成
评估指标:
- ROUGE
示例输入:
- 文本: "蒂萨河畔城市的动物园长期饲养着猫鼬(Suricata suricatta),尽管为它们建造了宽敞的住所和活动场地,但直到去年春天才成功繁殖——园长罗伯特·维普里克透露。2010年组建的新群体——由三只来自阿姆斯特丹的雌性和一只来自布达佩斯的年轻雄性组成——开始繁殖。2011年诞生了三只幼崽,今年又添了一只,让饲养员和动物爱好者们欣喜不已。猫鼬幼崽在怀孕11周后,于10月至3月间出生,刚出生时眼睛看不见且无毛。幼崽三周大时从地洞中探出头,双亲共同参与抚养。猫鼬群体中家庭成员关系紧密,但对外来者极具攻击性,甚至可能杀死被视为入侵者的动物。虽然这些原产于南非卡拉哈里沙漠的灵猫科掠食者在塞格德动物园面临的威胁比自然栖息地少,但狩猎公园森林中也有掠食性鸟类,可能将猫鼬视为猎物。不过塞格德猫鼬群体警戒森严,总有成员直立警戒危险。连蜻蜓飞过也会引起哨兵的注意,所有个体立即逃往安全处。猫鼬生活在卡拉哈里沙漠的灌木丛和岩石地带,体重约700克的它们以昆虫、幼虫、蝎子为食,偶尔也吃小型脊椎动物、蛋和植物块茎。这些昼行性动物会挖掘具有多个入口的地下洞穴系统。当遭遇外来群体或掠食者时,它们会立即开始挖掘,扬起大量尘土。也常紧贴在一起竖起毛发、伸展身体使自己显得更大。表演高潮时整个群体会跳向空中同时发出低吼。声音交流对猫鼬很重要,群体内个体使用至少十种不同信号。"
基于微调Pegasus模型的匈牙利语摘要生成
更多详情请访问我们的演示网站。
- 基于Pegasus模型微调
- 使用HI语料库微调(hvg.hu + index.hu)
限制条件
- 需对输入文本进行分词(使用HuSpaCy分词器)
- 最大源文本长度=1024
- 最大目标长度=256
- 因修改了词汇表,仅能使用PegasusTokenizerFast
效果对比
模型 |
HI指标 |
mBART |
35.17/16.46/25.61 |
mT5 |
33.30/15.97/24.65 |
PEGASUS |
30.36/13.11/21.57 |
使用方式
from transformers import PegasusForConditionalGeneration, PegasusTokenizerFast
model_name = 'NYTK/summarization-hi-pegasus-hungarian'
tokenizer = PegasusTokenizerFast.from_pretrained(model_name)
model = PegasusForConditionalGeneration.from_pretrained(model_name)
input_text = "蒂萨河畔城市的动物园长期饲养着猫鼬(Suricata suricatta),尽管为它们建造了宽敞的住所和活动场地,但直到去年春天才成功繁殖——园长罗伯特·维普里克透露..."
tokenized_text = tokenizer(input_text, truncation=True, max_length=1024, return_tensors="pt")
summarization = model.generate(**tokenized_text, max_length=256)
print(tokenizer.batch_decode(summarization, skip_special_tokens=True))
引用
若使用本模型,请引用以下论文:
@inproceedings {yang-multi-sum,
title = {{多语言模型及PEGASUS在匈牙利语摘要生成任务中的微调}},
booktitle = {第十九届匈牙利计算语言学会议(MSZNY 2023)},
year = {2023},
publisher = {塞格德大学信息学研究所},
address = {匈牙利塞格德},
author = {杨子健},
pages = {381--393}
}