gpt-fr-cased-base开源法语GPT模型 - 基于大语料库训练助力法语应用

首页

Gpt Fr Cased Base

由 asi 开发

GPT-fr是由Quantmetry和形式语言学实验室(LLF)开发的法语GPT模型，在大型多样化的法语语料库上训练。

大型语言模型法语开源协议:Apache-2.0 #法语文本生成 #多任务适配 #高参数模型

下载量 755

发布时间 : 3/2/2022

模型简介

这是一个基于Transformer架构的法语语言模型，可用于文本生成、文本分类和摘要生成等自然语言处理任务。

模型特点

法语优化

专门针对法语语言特性进行训练和优化

多任务能力

支持文本生成、分类和摘要等多种NLP任务

大规模训练

在大型多样化法语语料库上训练，包括维基百科、OpenSubtitle等数据源

模型能力

法语文本生成

文本分类

自动摘要

问答系统

使用案例

内容生成

文章续写

根据给定的开头生成连贯的法语文章

文本分类

产品评论分类

对书籍、DVD和音乐评论进行分类

准确率91.4%-92.6%

摘要生成

新闻摘要

生成法语新闻文章的简短摘要

ROUGE-1得分16.6

🚀 GPT-fr：法语生成式GPT模型

GPT-fr 是由 Quantmetry 和 Laboratoire de Linguistique Formelle (LLF) 开发的法语GPT模型。该模型在一个非常庞大且多样化的法语语料库上进行训练，可用于语言生成任务，如自动摘要或问答等，有望在学术和工业领域得到应用。

🚀 快速开始

该模型可以通过强大的 Transformers 库来使用。以下是使用示例：

from transformers import GPT2Tokenizer, GPT2LMHeadModel

# 加载预训练模型和分词器
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-base")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-base")

# 生成一段文本示例
model.eval()
input_sentence = "Longtemps je me suis couché de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')

beam_outputs = model.generate(
    input_ids, 
    max_length=100, 
    do_sample=True,   
    top_k=50, 
    top_p=0.95, 
    num_return_sequences=1
)

print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))

✨ 主要特性

多配置发布：发布了 gpt-fr-cased-small 和 gpt-fr-cased-base 两种配置的模型权重。
多任务表现：在文本生成、文本分类、摘要等多种任务上进行了评估，取得了不错的成绩。
单GPU适配：通过校准模型，使其在预训练或微调时可以在单个NVIDIA V100 32GB GPU上运行。

📦 安装指南

文档未提及具体安装步骤，可参考 Transformers 库的官方安装说明。

💻 使用示例

基础用法

from transformers import GPT2Tokenizer, GPT2LMHeadModel

# 加载预训练模型和分词器
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-base")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-base")

# 生成一段文本示例
model.eval()
input_sentence = "Longtemps je me suis couché de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')

beam_outputs = model.generate(
    input_ids, 
    max_length=100, 
    do_sample=True,   
    top_k=50, 
    top_p=0.95, 
    num_return_sequences=1
)

print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))

📚 详细文档

模型描述

GPT-fr 是一个用于法语的GPT模型，由 Quantmetry 和 Laboratoire de Linguistique Formelle (LLF) 开发。该模型在一个非常庞大且多样化的法语语料库上进行训练，发布了以下配置的权重：

模型名称	层数	注意力头数	嵌入维度	总参数
`gpt-fr-cased-small`	12	12	768	124 M
`gpt-fr-cased-base`	24	14	1,792	1,017 B

预期用途和限制

该模型可用于语言生成任务，许多任务可以被格式化为直接以自然语言生成输出的形式，例如自动摘要或问答。但大语言模型往往会复制预训练数据集中的偏差，如性别歧视或生成冒犯性内容。为了减少暴露于过多的明确内容，在选择数据源时进行了仔细筛选，但模型仍可能反映数据中包含的一些社会偏差。

训练数据

为了训练生成模型，创建了一个专用语料库。模型使用固定长度为1,024的上下文大小，需要长文档进行训练。聚合了现有的语料库，包括 Wikipedia、OpenSubtitle (Tiedemann, 2012)、Gutenberg 和 Common Crawl (Li et al., 2019)。对语料库进行了过滤并分割成句子，然后在每个文档不超过1,024个标记的限制内将连续的句子连接起来。

训练过程

在新的CNRS（法国国家科学研究中心）Jean Zay 超级计算机上对模型进行了预训练。在Tesla V-100硬件（TDP为300W）上进行了总共140小时的计算训练，训练分布在4个包含8个GPU的计算节点上。使用数据并行化将每个微批次分配到计算单元上。使用 Lacoste et al., (2019) 中提出的机器学习影响计算器估计总排放量为580.61 kgCO2eq。

评估结果

使用一个专门的法语语言模型评估基准对 GPT-fr 进行了评估。与英文的 WikiText 基准类似，从维基百科上经过验证的优质和特色文章集合中收集了超过7000万个标记。模型在测试集上的零样本困惑度达到了 12.9。

BibTeX引用和引用信息

除了在HuggingFace transformers库中托管的模型外，还维护了一个 git仓库。如果在科学出版物或工业应用中使用 GPT-fr，请引用以下论文：

@inproceedings{simoulin:hal-03265900,
  TITLE = {{Un modèle Transformer Génératif Pré-entraîné pour le français}},
  AUTHOR = {Simoulin, Antoine and Crabbé, Benoit},
  URL = {https://hal.archives-ouvertes.fr/hal-03265900},
  BOOKTITLE = {{Traitement Automatique des Langues Naturelles}},
  ADDRESS = {Lille, France},
  EDITOR = {Denis, Pascal and Grabar, Natalia and Fraisse, Amel and Cardon, Rémi and Jacquemin, Bernard and Kergosien, Eric and Balvet, Antonio},
  PUBLISHER = {{ATALA}},
  PAGES = {246-255},
  YEAR = {2021},
  KEYWORDS = {français. ; GPT ; Génératif ; Transformer ; Pré-entraîné},
  PDF = {https://hal.archives-ouvertes.fr/hal-03265900/file/7.pdf},
  HAL_ID = {hal-03265900},
  HAL_VERSION = {v1},
}

参考文献

Jörg Tiedemann: Parallel Data, Tools and Interfaces in OPUS. LREC 2012: 2214-2218

Xian Li, Paul Michel, Antonios Anastasopoulos, Yonatan Belinkov, Nadir Durrani, Orhan Firat, Philipp Koehn, Graham Neubig, Juan Pino, Hassan Sajjad: Findings of the First Shared Task on Machine Translation Robustness. WMT (2) 2019: 91-102

Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, Bryan Catanzaro: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism. CoRR abs/1909.08053 (2019)

Alexandre Lacoste, Alexandra Luccioni, Victor Schmidt, Thomas Dandres: Quantifying the Carbon Emissions of Machine Learning. CoRR abs/1910.09700 (2019)