语言:
- 法语
模型索引:
- 名称: asi/gpt-fr-cased-base
结果:
- 任务:
类型: 文本生成
名称: 法语维基文本
数据集:
类型: wikitext_fr
名称: 法语维基文本
指标:
- 任务:
类型: 文本分类
名称: FLUE
数据集:
类型: flue
名称: 书籍分类
分割: 分类
指标:
- 任务:
类型: 文本分类
名称: FLUE
数据集:
类型: flue
名称: DVD分类
分割: 分类
指标:
- 任务:
类型: 文本分类
名称: FLUE
数据集:
类型: flue
名称: 音乐分类
分割: 分类
指标:
- 任务:
类型: 文本分类
名称: FLUE
数据集:
类型: flue
名称: PAWS-X
分割: PAWS-X
指标:
- 任务:
类型: 文本分类
名称: FLUE
数据集:
类型: flue
名称: XNLI
分割: XNLI
指标:
- 任务:
类型: 摘要生成
名称: OrangeSum
数据集:
类型: orange_sum
名称: OrangeSum-摘要
分割: 摘要
指标:
- 名称: ROUGE-1
类型: rouge
值: 17.5
- 名称: ROUGE-2
类型: rouge
值: 3.1
- 名称: ROUGE-L
类型: rouge
值: 12.1
- 任务:
类型: 摘要生成
名称: OrangeSum
数据集:
类型: orange_sum
名称: OrangeSum-标题
分割: 标题
指标:
- 名称: ROUGE-1
类型: rouge
值: 13.9
- 名称: ROUGE-2
类型: rouge
值: 2.3
- 名称: ROUGE-L
类型: rouge
值: 9.7
标签:
- tf
- pytorch
- gpt2
- 文本生成
许可证: apache-2.0
缩略图: https://raw.githubusercontent.com/AntoineSimoulin/gpt-fr/main/imgs/logo.png
模型描述
GPT-fr 🇫🇷 是由 Quantmetry 和 Laboratoire de Linguistique Formelle (LLF) 开发的法语 GPT 模型。我们在一个非常大且多样化的法语语料库上训练了该模型。我们发布了以下配置的权重:
模型名称 |
层数 |
注意力头数 |
嵌入维度 |
总参数 |
gpt-fr-cased-small |
12 |
12 |
768 |
124 M |
gpt-fr-cased-base |
24 |
14 |
1,792 |
1,017 B |
预期用途与限制
该模型可用于语言生成任务。此外,许多任务可以格式化,使得输出直接以自然语言生成。这种配置可用于自动摘要或问答等任务。我们希望我们的模型可以用于学术和工业应用。
使用方法
可以通过令人惊叹的 🤗 Transformers
库使用该模型:
from transformers import GPT2Tokenizer, GPT2LMHeadModel
model = GPT2LMHeadModel.from_pretrained("asi/gpt-fr-cased-small")
tokenizer = GPT2Tokenizer.from_pretrained("asi/gpt-fr-cased-small")
model.eval()
input_sentence = "Longtemps je me suis couché de bonne heure."
input_ids = tokenizer.encode(input_sentence, return_tensors='pt')
beam_outputs = model.generate(
input_ids,
max_length=100,
do_sample=True,
top_k=50,
top_p=0.95,
num_return_sequences=1
)
print("输出:\n" + 100 * '-')
print(tokenizer.decode(beam_outputs[0], skip_special_tokens=True))
限制与偏见
大型语言模型倾向于复制预训练数据集中发现的偏见,例如性别歧视或攻击性内容生成。
为了限制接触过多的显式内容,我们事先仔细选择了来源。这一过程——在我们的论文中有详细说明——旨在限制模型生成攻击性内容,而无需进行手动和任意的过滤。
然而,数据中包含的一些社会偏见可能会被模型反映出来。例如,在性别平等方面,我们生成了以下句子序列“Ma femme/Mon mari vient d'obtenir un nouveau poste. A partir de demain elle/il sera _______”,并观察到模型根据主语性别生成了不同的职位。我们使用了 top-k 随机采样策略,k=50,并在第一个标点符号处停止。
为妻子生成的职位是“femme de ménage de la maison”,而为丈夫生成的职位是“à la tête de la police”。我们非常欢迎您的反馈,以便更好地质化和量化评估这些影响。
训练数据
我们创建了一个专门的语料库来训练我们的生成模型。由于模型使用固定的上下文大小 1,024,并且需要长文档进行训练。我们聚合了现有的语料库:维基百科、OpenSubtitle (Tiedemann, 2012)、Gutenberg。语料库经过过滤并分割成句子。连续的句子在每篇文档不超过 1,024 个标记的范围内进行连接。
训练过程
我们在 TPU v2-8 上使用令人惊叹的 Google Colab 服务器间进行了预训练。
评估结果
我们为 GPT-fr 打包了一个专门的语言模型评估基准。与英语的 WikiText 基准一致,我们从法语维基百科的优质和特色文章集中收集了超过 7000 万个标记。该模型在测试集上的零样本困惑度为 109.2。
BibTeX 条目和引用信息
除了 HuggingFace transformers 库托管的模型外,我们还维护了一个 git 仓库。如果您在科学出版物或工业应用中使用 GPT-fr,请引用以下论文:
@inproceedings{simoulin:hal-03265900,
TITLE = {{Un modèle Transformer Génératif Pré-entrainé pour le \_\_\_\_\_\_ français}},
AUTHOR = {Simoulin, Antoine and Crabbé, Benoit},
URL = {https://hal.archives-ouvertes.fr/hal-03265900},
BOOKTITLE = {{Traitement Automatique des Langues Naturelles}},
ADDRESS = {Lille, France},
EDITOR = {Denis, Pascal and Grabar, Natalia and Fraisse, Amel and Cardon, Rémi and Jacquemin, Bernard and Kergosien, Eric and Balvet, Antonio},
PUBLISHER = {{ATALA}},
PAGES = {246-255},
YEAR = {2021},
KEYWORDS = {français. ; GPT ; Génétif ; Transformer ; Pré-entraîné},
PDF = {https://hal.archives-ouvertes.fr/hal-03265900/file/7.pdf},
HAL_ID = {hal-03265900},
HAL_VERSION = {v1},
}
参考文献
Jörg Tiedemann: Parallel Data, Tools and Interfaces in OPUS. LREC 2012: 2214-2218