许可证: mit
语言: fr
库名称: transformers
管道标签: fill-mask
数据集:
- uonlp/CulturaX
- oscar
- almanach/HALvest
- wikimedia/wikipedia
标签:
- roberta
- camembert
CamemBERT(a)-v2:历经淬炼的更智能法语语言模型
CamemBERTv2 是基于2750亿法语文本语料预训练的法语语言模型。作为CamemBERT的第二代版本,其架构延续RoBERTa设计,采用掩码语言建模(MLM)目标,在32张H100 GPU上以40%掩码率训练3轮周期。训练数据融合了CulturaX项目中的法语OSCAR语料、HALvest科学文献及法语维基百科。
本模型可直接替代原版CamemBERT。需注意新版分词器采用WordPiece(32,768词符),新增换行符/制表符支持,优化数字处理(拆分为两位数词符),须使用Fast Tokenizer加载(原版基于SentencePiece的CamemBERTTokenizer
不再兼容,需改用transformers
库的CamemBERTTokenizerFast
)。
推荐使用基于DeBERTaV3架构的更强法语模型——CamemBERTav2。
版本升级亮点
- 预训练数据量跃升:2750亿唯一词符(原约320亿)
- 全新分词器:支持表情符号,优化数字处理
- 上下文窗口扩展至1024词符
详见CamemBERTv2论文。
调用方式
from transformers import AutoTokenizer, AutoModelForMaskedLM
camembertv2 = AutoModelForMaskedLM.from_pretrained("almanach/camembertv2-base")
tokenizer = AutoTokenizer.from_pretrained("almanach/camembertv2-base")
微调性能
测试集:词性标注/依存分析(GSD、Rhapsodie、Sequoia、FSMB)、命名实体识别(FTB)、FLUE基准(XNLI、CLS、PAWS-X)、法语问答数据集(FQuAD)、社交媒体NER(Counter-NER)、医疗NER(CAS1等)。
模型 |
UPOS |
LAS |
FTB-NER |
CLS |
PAWS-X |
XNLI |
F1(FQuAD) |
EM(FQuAD) |
Counter-NER |
医疗NER |
原版CamemBERT |
97.59 |
88.69 |
89.97 |
94.62 |
91.36 |
81.95 |
80.98 |
62.51 |
84.18 |
70.96 |
CamemBERTa |
97.57 |
88.55 |
90.33 |
94.92 |
91.67 |
82.00 |
81.15 |
62.01 |
87.37 |
71.86 |
CamemBERT-bio |
- |
- |
- |
- |
- |
- |
- |
- |
- |
73.96 |
CamemBERTv2 |
97.66 |
88.64 |
91.99 |
95.07 |
92.00 |
81.75 |
80.98 |
61.35 |
87.46 |
72.77 |
CamemBERTav2 |
97.71 |
88.65 |
93.40 |
95.63 |
93.06 |
84.82 |
83.04 |
64.29 |
89.53 |
73.98 |
微调模型集:CamemBERTv2微调模型库
预训练代码
基于CamemBERTa代码库实现。
引用
@misc{antoun2024camembert20smarterfrench,
title={CamemBERT 2.0: A Smarter French Language Model Aged to Perfection},
author={Wissam Antoun and Francis Kulumba and Rian Touchent and Éric de la Clergerie and Benoît Sagot and Djamé Seddah},
year={2024},
eprint={2411.08868},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.08868},
}