语言: 法语
许可证: MIT
数据集:
- flaubert
评估指标:
- flue
标签:
- bert
- 语言模型
- flaubert
- flue
- 法语
- flaubert-base
- 无大小写区分
FlauBERT:面向法语的无监督语言模型预训练
FlauBERT 是一个基于大规模异构法语语料库训练的法语BERT模型。不同规模的模型均在法国国家科学研究中心(CNRS)的新型超级计算机Jean Zay上完成训练。
与FlauBERT一同发布的还有FLUE——一个类似于知名GLUE基准的法语NLP系统评估框架,旨在推动未来法语语言研究的可复现实验,并促进模型与进展的共享。更多详情请参阅官方网站。
FlauBERT模型列表
模型名称 |
层数 |
注意力头数 |
嵌入维度 |
参数量总计 |
flaubert-small-cased |
6 |
8 |
512 |
54 M |
flaubert-base-uncased |
12 |
12 |
768 |
137 M |
flaubert-base-cased |
12 |
12 |
768 |
138 M |
flaubert-large-cased |
24 |
16 |
1024 |
373 M |
注意: flaubert-small-cased
为部分训练版本,性能无法保证,建议仅用于调试目的。
通过Hugging Face的Transformers使用FlauBERT
import torch
from transformers import FlaubertModel, FlaubertTokenizer
modelname = 'flaubert/flaubert_base_cased'
flaubert, log = FlaubertModel.from_pretrained(modelname, output_loading_info=True)
flaubert_tokenizer = FlaubertTokenizer.from_pretrained(modelname, do_lowercase=False)
sentence = "Le chat mange une pomme."
token_ids = torch.tensor([flaubert_tokenizer.encode(sentence)])
last_layer = flaubert(token_ids)[0]
print(last_layer.shape)
cls_embedding = last_layer[:, 0, :]
版本说明: 若您的transformers
版本≤2.10.0,modelname
需使用以下值之一:
['flaubert-small-cased', 'flaubert-base-uncased', 'flaubert-base-cased', 'flaubert-large-cased']
参考文献
若您在科研出版物中使用FlauBERT或FLUE基准,或认为本仓库资源有价值,请引用以下论文之一:
LREC论文
@InProceedings{le2020flaubert,
author = {Le, Hang 和 Vial, Lo\"{i}c 和 Frej, Jibril 和 Segonne, Vincent 和 Coavoux, Maximin 和 Lecouteux, Benjamin 和 Allauzen, Alexandre 和 Crabb\'{e}, Beno\^{i}t 和 Besacier, Laurent 和 Schwab, Didier},
title = {FlauBERT: 面向法语的无监督语言模型预训练},
booktitle = {第12届语言资源与评估会议论文集},
month = {5月},
year = {2020},
address = {法国马赛},
publisher = {欧洲语言资源协会},
pages = {2479--2490},
url = {https://www.aclweb.org/anthology/2020.lrec-1.302}
}
TALN论文
@inproceedings{le2020flaubert,
title = {FlauBERT: 面向法语的情境化预训练语言模型},
author = {Le, Hang 和 Vial, Lo{\"\i}c 和 Frej, Jibril 和 Segonne, Vincent 和 Coavoux, Maximin 和 Lecouteux, Benjamin 和 Allauzen, Alexandre 和 Crabb{\'e}, Beno{\^\i}t 和 Besacier, Laurent 和 Schwab, Didier},
booktitle = {第六届联合会议论文集:第31届语音研究日(JEP)、第27届自然语言处理大会(TALN)、第22届自然语言处理信息学研究生研讨会(R{\'E}CITAL)。第二卷:自然语言处理},
pages = {268--278},
year = {2020},
organization = {ATALA}
}