语言:
- 法语
缩略图: https://raw.githubusercontent.com/AntoineSimoulin/gpt-fr/main/imgs/logo.png
标签:
- 张量流
- PyTorch
- GPT2
- 文本生成
模型索引:
- 名称: asi/gpt-fr-cased-base
结果:
- 任务:
类型: 文本生成
名称: 法语维基文本
数据集:
类型: wikitext_fr
名称: 法语维基文本
指标:
- 任务:
类型: 文本分类
名称: FLUE
数据集:
类型: flue
名称: CLS-图书
分割: CLS
指标:
- 任务:
类型: 文本分类
名称: FLUE
数据集:
类型: flue
名称: CLS-DVD
分割: CLS
指标:
- 任务:
类型: 文本分类
名称: FLUE
数据集:
类型: flue
名称: CLS-音乐
分割: CLS
指标:
- 任务:
类型: 文本分类
名称: FLUE
数据集:
类型: flue
名称: PAWS-X
分割: PAWS-X
指标:
- 任务:
类型: 文本分类
名称: FLUE
数据集:
类型: flue
名称: XNLI
分割: XNLI
指标:
- 任务:
类型: 摘要生成
名称: OrangeSum
数据集:
类型: orange_sum
名称: OrangeSum-摘要
分割: 摘要
指标:
- 名称: ROUGE-1
类型: rouge
值: 16.6
- 名称: ROUGE-2
类型: rouge
值: 3.4
- 名称: ROUGE-L
类型: rouge
值: 11.5
- 任务:
类型: 摘要生成
名称: OrangeSum
数据集:
类型: orange_sum
名称: OrangeSum-标题
分割: 标题
指标:
- 名称: ROUGE-1
类型: rouge
值: 10.2
- 名称: ROUGE-2
类型: rouge
值: 2.6
- 名称: ROUGE-L
类型: rouge
值: 8.4
许可证: Apache-2.0
模型描述
GPT-fr 🇫🇷 是由Quantmetry和形式语言学实验室(LLF)开发的法语GPT模型。我们在一个非常大且多样化的法语语料库上训练了该模型。我们发布了以下配置的权重:
模型名称 |
层数 |
注意力头数 |
嵌入维度 |
总参数 |
gpt-fr-cased-small |
12 |
12 |
768 |
124 M |
gpt-fr-cased-base |
24 |
14 |
1,792 |
1,017 B |
预期用途与限制
该模型可用于语言生成任务。此外,许多任务可以格式化,使得输出直接以自然语言生成。这种配置可用于自动摘要或问答等任务。我们希望我们的模型能用于学术和工业应用。
使用方法
该模型可以通过令人惊叹的🤗 Transformers
库使用。我们参考了Shoeybi等人(2019)的工作,并校准了我们的模型,使得在预训练或微调期间,模型可以适应单个NVIDIA V100 32GB GPU。
from transformers import GPT2Tokenizer, GPT2LMHeadModel
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-base")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-base")
model.eval()
input_sentence = "Longtemps je me suis couché de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')
beam_outputs = model.generate(
input_ids,
max_length=100,
do_sample=True,
top_k=50,
top_p=0.95,
num_return_sequences=1
)
print("输出:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))
限制与偏见
大型语言模型倾向于复制预训练数据集中发现的偏见,如性别歧视或冒犯性内容生成。
为了限制接触过多明确内容,我们事先仔细选择了数据源。这一过程——在我们的论文中有详细描述——旨在限制模型生成冒犯性内容,而无需进行手动和任意过滤。
然而,数据中包含的一些社会偏见可能会被模型反映出来。例如,在性别平等方面,我们生成了以下句子序列“Ma femme/Mon mari vient d'obtenir un nouveau poste en tant _______”。我们使用了top-k随机采样策略,k=50,并在第一个标点符号处停止。为妻子生成的职位是“que professeur de français.”,而为丈夫生成的职位是“que chef de projet.”。我们非常感谢您的反馈,以便更好地定性和定量评估这些影响。
训练数据
我们创建了一个专门的语料库来训练我们的生成模型。模型使用固定的1,024个标记的上下文大小,需要长文档进行训练。我们聚合了现有的语料库:维基百科、OpenSubtitle(Tiedemann, 2012)、古腾堡和Common Crawl(Li等人, 2019)。语料库经过过滤并分割成句子。连续的句子在每文档1,024个标记的限制内连接。
训练过程
我们在法国国家科学研究中心(CNRS)的Jean Zay超级计算机上进行了预训练。我们在Tesla V-100硬件(TDP为300W)上进行了总计140小时的计算。训练分布在4个计算节点上,每个节点有8个GPU。我们使用数据并行化将每个微批次分配到计算单元上。我们使用Lacoste等人(2019)中提出的机器学习影响计算器估计总排放量为580.61 kgCO2eq。
评估结果
我们为法语打包了GPT-fr专用的语言模型评估基准。与英语的WikiText基准一致,我们从维基百科的优质和特色文章集中收集了超过7000万个标记。模型在测试集上的零样本困惑度为12.9。
BibTeX条目和引用信息
除了托管在HuggingFace transformers库中的模型外,我们还维护了一个git仓库。如果您在科学出版物或工业应用中使用GPT-fr,请引用以下论文:
@inproceedings{simoulin:hal-03265900,
TITLE = {{Un modèle Transformer Génératif Pré-entrainé pour le \_\_\_\_\_\_ français}},
AUTHOR = {Simoulin, Antoine and Crabbé, Benoit},
URL = {https://hal.archives-ouvertes.fr/hal-03265900},
BOOKTITLE = {{Traitement Automatique des Langues Naturelles}},
ADDRESS = {Lille, France},
EDITOR = {Denis, Pascal and Grabar, Natalia and Fraisse, Amel and Cardon, Rémi and Jacquemin, Bernard and Kergosien, Eric and Balvet, Antonio},
PUBLISHER = {{ATALA}},
PAGES = {246-255},
YEAR = {2021},
KEYWORDS = {français. ; GPT ; Génétif ; Transformer ; Pré-entraîné},
PDF = {https://hal.archives-ouvertes.fr/hal-03265900/file/7.pdf},
HAL_ID = {hal-03265900},
HAL_VERSION = {v1},
}
参考文献
Jörg Tiedemann: Parallel Data, Tools and Interfaces in OPUS. LREC 2012: 2214-2218
Xian Li, Paul Michel, Antonios Anastasopoulos, Yonatan Belinkov, Nadir Durrani, Orhan Firat, Philipp Koehn, Graham Neubig, Juan Pino, Hassan Sajjad: Findings of the First Shared Task on Machine Translation Robustness. WMT (2) 2019: 91-102
Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, Bryan Catanzaro: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism. CoRR abs/1909.08053 (2019)
Alexandre Lacoste, Alexandra Luccioni, Victor Schmidt, Thomas Dandres: Quantifying the Carbon Emissions of Machine Learning. CoRR abs/1910.09700 (2019)