语言:
- 葡萄牙语
标签:
- GlórIA
- 欧洲葡萄牙语
- gptneo
- 解码器
- 基础模型
- 文本生成
数据集:
- NOVA-vision-language/calame-pt
- europarl_bilingual
- assin2
- dlb/plue
- oscar-corpus/OSCAR-2301
- PORTULAN/glue-ptpt
小部件示例:
- 文本: 葡萄牙美食以其丰富的香气和
- 文本: 如今的计算机非常
- 文本: 葡萄牙文学是
推理参数:
温度: 1
重复惩罚系数: 2
最大新生成标记数: 30
束搜索数: 4
启用采样: true
前k候选: 50
库名称: transformers
GlórIA 1.3B

模型描述
GlórIA 是一个专注于欧洲葡萄牙语的大规模生成式语言模型。
该模型基于GPTNeo架构,具有13亿参数,包含24个网络层和2048维隐藏层。
我们的研究论文已被PROPOR 2024会议收录,详见论文链接。
训练数据
GlórIA 1.3B的训练语料库包含约350亿标记,汇集了多个葡萄牙语数据源:
评估 - CALAME-PT基准
GlórIA 1.3B的生成能力在CALAME-PT基准上进行评估,该基准通过上下文预测句子末尾单词来测试模型性能。
模型及规模 |
精确匹配率 |
Gervasio-PTPT (1B) |
44.01 |
mGPT (1.3B) |
47.14 |
GlórIA (1.3B) |
52.79 |
使用指南
基础推理示例
>>> from transformers import pipeline
>>> generator = pipeline('text-generation', model='NOVA-vision-language/GlorIA-1.3B')
>>> generator("葡萄牙美食以其丰富的香气和", do_sample=True, min_length=50)
[{'generated_text': '葡萄牙美食以其丰富的香气和'}]
推荐参数设置(更灵活的用法)
from transformers import GenerationConfig, TextGenerationPipeline
generation_config = GenerationConfig(
max_new_tokens=50, do_sample=True, top_k=50, eos_token_id=model.config.eos_token_id,
no_repeat_ngram_size=0, num_beams=4, repetition_penalty=2.0, temperature=1.0,
output_scores=True, early_stopping=True
)
generator = TextGenerationPipeline(model=model, task="text-generation",
tokenizer=loaded_tokenizer, device=0)
completion_prompts = ["费尔南多·佩索阿是最重要的诗人之一"]
out = generator(completion_prompts, generation_config=generation_config)
[[{'generated_text': '费尔南多·佩索阿是最重要的诗人之一,其作品贯穿整个葡萄牙文学史,著有包括《使命》《牧羊人》《不安之书》《颂歌》等四十余部著作'}]]
引用文献
请使用以下BibTeX引用我们的论文:
@inproceedings{lopes-etal-2024-gloria,
title = "{G}l{\'o}r{IA}: 面向葡萄牙语的开源大语言模型",
author = "Lopes, Ricardo and
Magalhaes, Joao and
Semedo, David",
editor = "Gamallo, Pablo 等",
booktitle = "第16届葡萄牙语计算处理国际会议论文集",
month = "3月",
year = "2024",
address = "西班牙圣地亚哥-德孔波斯特拉",
publisher = "计算语言学协会",
url = "https://aclanthology.org/2024.propor-1.45",
pages = "441--453",
}
许可证:GlórIA仅限于研究用途,受ClueWeb22数据集许可条款约束,许可文件可在此获取。
致谢
特别感谢Arquivo.pt团队在内容存档方面的工作,以及他们在大规模网页访问方面提供的指导。
本工作部分经费来自FCT项目NOVA LINCS(编号UIDP/04516/2020)、CMU|Portugal项目iFetch(编号CMUP LISBOA-01-0247-FEDER-045920)以及FCT项目(编号CPCA-IAC/AV/594875/2023)。