C

Camembertv2 Base

由 almanach 开发
CamemBERTv2是基于2750亿法语文本语料预训练的法语语言模型,是CamemBERT的第二代版本,采用RoBERTa架构,优化了分词器和训练数据。
下载量 1,512
发布时间 : 11/14/2024
模型介绍
内容详情
替代品

模型简介

CamemBERTv2是一个更智能的法语语言模型,适用于各种自然语言处理任务,如文本填充、词性标注、命名实体识别等。

模型特点

大规模预训练数据
使用2750亿唯一词符进行预训练,远超原版的320亿。
全新分词器
采用WordPiece分词器,支持表情符号,优化数字处理(拆分为两位数词符)。
扩展上下文窗口
上下文窗口扩展至1024词符,提升长文本处理能力。
高性能微调
在多个法语NLP任务上表现优异,如词性标注、命名实体识别等。

模型能力

文本填充
词性标注
依存分析
命名实体识别
问答系统
文本分类

使用案例

自然语言处理
法语文本填充
用于填充法语文本中的缺失部分。
词性标注
对法语文本进行词性标注。
UPOS准确率97.66
命名实体识别
识别法语文本中的命名实体。
FTB-NER F1分数91.99
问答系统
法语问答
用于构建法语问答系统。
FQuAD F1分数80.98