CamemBERT-base开源法语语言模型 - 6版本支持多类型自然语言处理任务

首页

Camembert Base

由 DataikuNLP 开发

CamemBERT是基于RoBERTa开发的法语先进语言模型，提供6种不同版本，适用于多种法语自然语言处理任务。

大型语言模型

Transformers

法语开源协议:MIT #法语语言模型 #RoBERTa架构 #文本填充

下载量 95

发布时间 : 3/2/2022

模型简介

CamemBERT是一款基于RoBERTa架构的法语语言模型，专门针对法语文本进行优化，可用于文本分类、命名实体识别等多种自然语言处理任务。

模型特点

多版本选择

提供6种不同版本，参数数量和预训练数据量各不相同，满足不同需求。

高效预训练

基于RoBERTa架构，使用大规模法语文本数据进行预训练，性能优异。

易用性

可通过Hugging Face Transformers库轻松加载和使用。

模型能力

文本填充

上下文嵌入提取

法语文本理解

自然语言处理

使用案例

文本处理

掩码填充

预测并填充句子中被掩码的词语

能准确预测法语文本中被掩码的词语，如将'Le camembert est <mask> :)'填充为'Le camembert est délicieux :)'

特征提取

上下文嵌入

提取法语文本的上下文相关特征表示

可获取单词和句子的高质量向量表示，适用于下游任务

🚀 CamemBERT：美味的法语语言模型

CamemBERT 是基于 RoBERTa 模型的先进法语语言模型，提供了多种不同参数规模和预训练数据的版本，能为法语相关的自然语言处理任务提供强大支持。

🚀 快速开始

本模型是此模型仓库在特定提交 482393b6198924f9da270b1aaf37d238aafca99b 时的副本。

CamemBERT 是一个基于 RoBERTa 模型的最先进的法语语言模型。现在，它在 Hugging Face 上有 6 种不同版本，参数数量、预训练数据量和预训练数据来源领域各不相同。

如需更多信息或有相关请求，请访问 Camembert 官网。

✨ 主要特性

基于 RoBERTa 架构，在法语语言处理上表现出色。
提供多种不同参数规模和预训练数据的版本，可根据需求灵活选择。

📦 预训练模型

模型	参数数量	架构	训练数据
`camembert-base`	1.1 亿	基础	OSCAR（138 GB 文本）
`camembert/camembert-large`	3.35 亿	大型	CCNet（135 GB 文本）
`camembert/camembert-base-ccnet`	1.1 亿	基础	CCNet（135 GB 文本）
`camembert/camembert-base-wikipedia-4gb`	1.1 亿	基础	维基百科（4 GB 文本）
`camembert/camembert-base-oscar-4gb`	1.1 亿	基础	OSCAR 子样本（4 GB 文本）
`camembert/camembert-base-ccnet-4gb`	1.1 亿	基础	CCNet 子样本（4 GB 文本）

💻 使用示例

基础用法

# 加载 CamemBERT 及其子词分词器
from transformers import CamembertModel, CamembertTokenizer

# 你可以将 "camembert-base" 替换为表格中的任何其他模型，例如 "camembert/camembert-large"。
tokenizer = CamembertTokenizer.from_pretrained("camembert-base")
camembert = CamembertModel.from_pretrained("camembert-base")

camembert.eval()  # 禁用 dropout（或保留在训练模式以进行微调）

高级用法

使用管道填充掩码

from transformers import pipeline 

camembert_fill_mask  = pipeline("fill-mask", model="camembert-base", tokenizer="camembert-base")
results = camembert_fill_mask("Le camembert est <mask> :)")
# results
#[{'sequence': '<s> Le camembert est délicieux :)</s>', 'score': 0.4909103214740753, 'token': 7200},
# {'sequence': '<s> Le camembert est excellent :)</s>', 'score': 0.10556930303573608, 'token': 2183}, 
# {'sequence': '<s> Le camembert est succulent :)</s>', 'score': 0.03453315049409866, 'token': 26202}, 
# {'sequence': '<s> Le camembert est meilleur :)</s>', 'score': 0.03303130343556404, 'token': 528}, 
# {'sequence': '<s> Le camembert est parfait :)</s>', 'score': 0.030076518654823303, 'token': 1654}]

从 Camembert 输出中提取上下文嵌入特征

import torch
# 使用 SentencePiece 进行子词分词
tokenized_sentence = tokenizer.tokenize("J'aime le camembert !")
# ['▁J', "'", 'aime', '▁le', '▁ca', 'member', 't', '▁!'] 

# 进行 one-hot 编码并添加特殊的起始和结束标记 
encoded_sentence = tokenizer.encode(tokenized_sentence)
# [5, 121, 11, 660, 16, 730, 25543, 110, 83, 6] 
# 注意：可以一步完成：tokenize.encode("J'aime le camembert !")

# 将标记作为 torch 张量输入到 Camembert 中（批量维度为 1）
encoded_sentence = torch.tensor(encoded_sentence).unsqueeze(0)
embeddings, _ = camembert(encoded_sentence)
# embeddings.detach()
# embeddings.size torch.Size([1, 10, 768])
# tensor([[[-0.0254,  0.0235,  0.1027,  ..., -0.1459, -0.0205, -0.0116],
#         [ 0.0606, -0.1811, -0.0418,  ..., -0.1815,  0.0880, -0.0766],
#         [-0.1561, -0.1127,  0.2687,  ..., -0.0648,  0.0249,  0.0446],
#         ...,

从所有 Camembert 层中提取上下文嵌入特征

from transformers import CamembertConfig
# （需要使用新配置重新加载模型）
config = CamembertConfig.from_pretrained("camembert-base", output_hidden_states=True)
camembert = CamembertModel.from_pretrained("camembert-base", config=config)

embeddings, _, all_layer_embeddings = camembert(encoded_sentence)
#  all_layer_embeddings 列表长度为 13（输入嵌入层 + 12 个自注意力层）
all_layer_embeddings[5]
# 第 5 层上下文嵌入：大小为 torch.Size([1, 10, 768])
#tensor([[[-0.0032,  0.0075,  0.0040,  ..., -0.0025, -0.0178, -0.0210],
#         [-0.0996, -0.1474,  0.1057,  ..., -0.0278,  0.1690, -0.2982],
#         [ 0.0557, -0.0588,  0.0547,  ..., -0.0726, -0.0867,  0.0699],
#         ...,

📄 许可证

本项目采用 MIT 许可证。

👨‍💻 作者

CamemBERT 由 Louis Martin*、Benjamin Muller*、Pedro Javier Ortiz Suárez*、Yoann Dupont、Laurent Romary、Éric Villemonte de la Clergerie、Djamé Seddah 和 Benoît Sagot 进行训练和评估。

📚 引用

如果您使用了我们的工作，请引用以下文献：

@inproceedings{martin2020camembert,
  title={CamemBERT: a Tasty French Language Model},
  author={Martin, Louis and Muller, Benjamin and Su{\'a}rez, Pedro Javier Ortiz and Dupont, Yoann and Romary, Laurent and de la Clergerie, {\'E}ric Villemonte and Seddah, Djam{\'e} and Sagot, Beno{\^\i}t},
  booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
  year={2020}
}