C

Camembertav2 Base

由 almanach 开发
CamemBERTav2是基于2750亿法语文本标记预训练的法语语言模型,采用DebertaV2架构,在多个法语NLP任务上表现优异。
下载量 2,972
发布时间 : 11/14/2024

模型简介

第二代CamemBERTa模型,针对法语优化的语言模型,支持多种自然语言处理任务。

模型特点

大规模预训练
使用2750亿法语文本标记进行训练,远超原版模型的320亿标记
改进的分词器
新建WordPiece分词器,支持32,768个标记,优化了数字处理和特殊字符支持
扩展上下文窗口
上下文窗口扩展至1024个标记,能处理更长文本
多任务性能提升
在词性标注、命名实体识别、问答等任务上全面超越前代模型

模型能力

法语文本理解
特征提取
掩码语言建模
词性标注
命名实体识别
文本分类
问答系统

使用案例

自然语言处理
法语文本分析
用于法语文本的词性标注和依存解析
在GSD/Rhapsodie/Sequoia/FSMB数据集上达到97.71%的UPOS准确率
命名实体识别
识别法语文本中的命名实体
在FTB-NER数据集上达到93.40%的F1分数
问答系统
构建法语问答系统
在FQuAD数据集上达到83.04%的F1分数和64.29%的EM分数
学术研究
科学文献处理
处理法语科学文献的文本分析
AIbase
智启未来,您的人工智能解决方案智库
简体中文