gpt-fr-cased-small开源法语GPT模型 - 基于丰富语料库的实用语言工具

首页

Gpt Fr Cased Small

由 asi 开发

GPT-fr是由Quantmetry和Laboratoire de Linguistique Formelle (LLF)开发的法语GPT模型，在大量多样的法语语料库上训练而成。

大型语言模型法语开源协议:Apache-2.0 #法语文本生成 #多任务分类 #低困惑度

下载量 4,314

发布时间 : 3/2/2022

模型简介

GPT-fr是一个法语生成式预训练Transformer模型，可用于文本生成、分类和摘要等多种自然语言处理任务。

模型特点

法语优化

专门针对法语语言特点进行训练和优化

多样化任务支持

支持文本生成、分类和摘要等多种自然语言处理任务

预训练模型

在大规模法语语料库上预训练，可直接用于下游任务

模型能力

法语文本生成

文本分类

摘要生成

问答系统

语言理解

使用案例

内容生成

文章续写

根据给定的开头续写文章

可生成连贯的法语文本

文本分类

产品评论分类

对书籍、DVD和音乐评论进行分类

准确率86.9%-89.3%

摘要生成

新闻摘要

生成法语新闻文章的简短摘要

ROUGE-1得分17.5

🚀 法国GPT模型（GPT - fr）

GPT - fr 是由 Quantmetry 和形式语言学实验室（LLF）开发的一款针对法语的GPT模型。该模型在一个非常庞大且多样化的法语语料库上进行训练，能够有效处理多种自然语言处理任务，为法语相关的学术研究和工业应用提供了有力支持。

🚀 快速开始

模型调用示例

你可以通过强大的 Transformers 库来使用这个模型：

from transformers import GPT2Tokenizer, GPT2LMHeadModel

# 加载预训练模型和分词器
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-small")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-small")

# 生成一段文本示例
model.eval()
input_sentence = "Longtemps je me suis couché de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')

beam_outputs = model.generate(
    input_ids, 
    max_length=100, 
    do_sample=True,   
    top_k=50, 
    top_p=0.95, 
    num_return_sequences=1
)

print("Output:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))

✨ 主要特性

多任务处理：可用于语言生成任务，还能处理自动摘要、问答等多种自然语言处理任务。
多配置选择：提供了不同配置的模型权重，如 gpt - fr - cased - small 和 gpt - fr - cased - base，以满足不同场景的需求。

📚 详细文档

模型描述

我们在一个大规模且多样化的法语语料库上训练该模型，并发布了以下配置的权重：

模型名称	层数	注意力头数	嵌入维度	总参数
`gpt - fr - cased - small`	12	12	768	124 M
`gpt - fr - cased - base`	24	14	1,792	1,017 B

预期用途与限制

预期用途

该模型可用于语言生成任务，并且可以将许多任务进行格式化处理，使其直接以自然语言生成输出，适用于学术和工业应用。

限制和偏差

大型语言模型往往会复制预训练数据集中存在的偏差，如性别歧视或生成冒犯性内容。为了减少接触过多的明确材料，我们事先仔细选择了数据源。但模型仍可能反映数据中包含的一些社会偏差。例如，在性别平等方面，模型生成的句子可能会因主体性别不同而产生不同的职位描述。我们非常欢迎你提供反馈，以便更好地从定性和定量角度评估这些影响。

训练数据

为了训练这个生成模型，我们创建了一个专门的语料库。该模型使用固定长度为1024的上下文大小，需要长文档进行训练。我们整合了多个现有语料库，包括维基百科、OpenSubtitle ([Tiedemann, 2012](#tiedemann - 2012)) 和古腾堡计划。对语料库进行过滤并分割成句子，然后在每个文档最多1024个标记的限制内将连续的句子连接起来。

训练过程

我们使用令人惊叹的 Google Colab 跨服务器在TPU v2 - 8上对模型进行了预训练。

评估结果

我们为 GPT - fr 配备了专门的语言模型评估基准。参照英文的 [WikiText](https://blog.einstein.ai/the - wikitext - long - term - dependency - language - modeling - dataset/) 基准，我们从法语维基百科的经过验证的优质和特色文章集中收集了超过7000万个标记。该模型在测试集上的零样本困惑度达到了 109.2。

模型指标

任务类型	任务名称	数据集	指标	值
文本生成	Wikitext - fr	Wikitext - fr	困惑度	109.2
文本分类	FLUE	CLS - Books	准确率	88.3
文本分类	FLUE	CLS - Dvd	准确率	86.9
文本分类	FLUE	CLS - Music	准确率	89.3
文本分类	FLUE	PAWS - X	准确率	83.3
文本分类	FLUE	XNLI	准确率	75.6
摘要生成	OrangeSum - Abstract	OrangeSum - Abstract	ROUGE - 1	17.5
摘要生成	OrangeSum - Abstract	OrangeSum - Abstract	ROUGE - 2	3.1
摘要生成	OrangeSum - Abstract	OrangeSum - Abstract	ROUGE - L	12.1
摘要生成	OrangeSum - Title	OrangeSum - Title	ROUGE - 1	13.9
摘要生成	OrangeSum - Title	OrangeSum - Title	ROUGE - 2	2.3
摘要生成	OrangeSum - Title	OrangeSum - Title	ROUGE - L	9.7

BibTeX引用和引用信息

如果你在科学出版物或工业应用中使用 GPT - fr，请引用以下论文：

@inproceedings{simoulin:hal-03265900,
  TITLE = {{Un mod{\`e}le Transformer G{\'e}n{\'e}ratif Pr{\'e}-entrain{\'e} pour le \_\_\_\_\_\_ fran{\c c}ais}},
  AUTHOR = {Simoulin, Antoine and Crabb{\'e}, Benoit},
  URL = {https://hal.archives-ouvertes.fr/hal-03265900},
  BOOKTITLE = {{Traitement Automatique des Langues Naturelles}},
  ADDRESS = {Lille, France},
  EDITOR = {Denis, Pascal and Grabar, Natalia and Fraisse, Amel and Cardon, R{\'e}mi and Jacquemin, Bernard and Kergosien, Eric and Balvet, Antonio},
  PUBLISHER = {{ATALA}},
  PAGES = {246-255},
  YEAR = {2021},
  KEYWORDS = {fran{\c c}ais. ; GPT ; G{\'e}n{\'e}ratif ; Transformer ; Pr{\'e}-entra{\^i}n{\'e}},
  PDF = {https://hal.archives-ouvertes.fr/hal-03265900/file/7.pdf},
  HAL_ID = {hal-03265900},
  HAL_VERSION = {v1},
}