language: fr
license: apache-2.0
datasets:
FrALBERT Base Cased(法语ALBERT基础大写版)
基于掩码语言建模(MLM)目标预训练的法语模型。更多模型细节详见论文。
与其他ALBERT模型不同,本模型区分大小写:能识别"french"和"French"的区别。
模型描述
FrALBERT是通过自监督方式在16GB法语维基百科文本上预训练的Transformer模型。这意味着它仅通过原始文本进行预训练,无需任何人工标注(因此可利用大量公开数据),并通过自动化流程从文本生成输入和标签。具体而言,其预训练目标包括:
- 掩码语言建模(MLM):随机遮蔽输入句子中15%的词汇,要求模型预测被遮蔽的词汇。不同于传统RNN逐词处理或GPT类自回归模型,这种方法使模型能学习句子的双向表征。
- 句子顺序预测(SOP):通过预测两个连续文本段的顺序进行预训练。
通过这种方式,模型习得了法语的内在表征,可用于下游任务的特征提取。例如,对于带标注句子的数据集,您可以使用FrALBERT生成的特征作为标准分类器的输入。
FrALBERT的特殊性在于其Transformer层采用权重共享机制,所有层具有相同参数。这种重复层结构实现了较小的内存占用,但由于需要迭代相同数量的(重复)层,其计算成本与具有相同隐藏层数的BERT架构相当。
此为基础模型的第二版,具体配置如下:
- 12个重复层
- 128维词嵌入
- 768维隐藏层
- 12个注意力头
- 1100万参数
适用范围与限制
原始模型可用于掩码语言建模或下一句预测,但主要适用于下游任务微调。可通过模型中心查找相关任务的微调版本。
需注意,本模型主要针对需要整句(可能含掩码)决策的任务(如序列分类、标记分类或问答),文本生成类任务建议使用GPT2等模型。
使用方法
可直接使用pipeline进行掩码预测:
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='cservan/french-albert-base-cased')
>>> unmasker("Paris est la capitale de la [MASK] .")
[...]
PyTorch特征提取示例:
from transformers import AlbertTokenizer, AlbertModel
tokenizer = AlbertTokenizer.from_pretrained('cservan/french-albert-base-cased')
model = AlbertModel.from_pretrained("cservan/french-albert-base-cased")
text = "此处替换为您需要的法语文本。"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
TensorFlow示例:
from transformers import AlbertTokenizer, TFAlbertModel
tokenizer = AlbertTokenizer.from_pretrained('cservan/french-albert-base-cased')
model = TFAlbertModel.from_pretrained("cservan/french-albert-base-cased")
text = "此处替换为您需要的法语文本。"
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
训练数据
基于4GB法语维基百科(不含列表/表格/标题)预训练。
训练流程
预处理
文本经小写化处理,使用SentencePiece分词器(词表大小32,000)。输入格式为:
[CLS] 句子A [SEP] 句子B [SEP]
训练
遵循BERT训练方案,掩码策略如下:
- 15%的标记被遮蔽
- 80%概率替换为[MASK]
- 10%概率替换为随机标记
- 10%概率保持原词
评估结果
下游任务微调表现:
语义槽填充:
|
FrALBERT-base |
FrALBERT-base-cased |
MEDIA |
81.76 (0.59) |
85.09 (0.14) |
引用信息
@inproceedings{cattan2021fralbert,
author = {Oralie Cattan and
Christophe Servan and
Sophie Rosset},
booktitle = {Recent Advances in Natural Language Processing, RANLP 2021},
title = {{On the Usability of Transformers-based models for a French Question-Answering task}},
year = {2021},
address = {Online},
month = sep,
}
论文链接:PDF