lsg-camembert-base-4096开源长序列处理模型 - 高效搞定各类长文本内容

首页

Lsg Camembert Base 4096

由 ccdv 开发

基于CamemBERT-base调整的长序列处理模型，采用局部+稀疏+全局注意力机制(LSG)，高效处理长文本

大型语言模型

Transformers

法语#长文本处理 #稀疏注意力机制 #法语模型

下载量 108

发布时间 : 3/2/2022

模型简介

该模型针对法语长文本优化，在保持CamemBERT原有架构基础上引入LSG注意力机制，支持4096长度的上下文处理

模型特点

长上下文处理

支持长达4096个标记的序列处理，优于传统Transformer模型

高效注意力机制

采用局部+稀疏+全局(LSG)混合注意力模式，计算效率高于Longformer/BigBird

自适应序列长度

支持自动填充序列长度至块大小的整数倍，简化预处理流程

多种稀疏模式

提供6种稀疏注意力选择策略，可根据任务需求灵活配置

模型能力

法语文本理解

长文档处理

掩码语言建模

序列分类

文本特征提取

使用案例

文本理解

法语长文档分类

对法语长篇文章或文档进行主题分类

示例显示可有效处理300+单词的序列

语言建模

法语完形填空

预测被掩码的法语词汇

示例成功预测'Paris est la capitale de la France'

🚀 LSG模型

LSG模型是一个基于CamemBERT-base进行适配的模型，无需额外预训练，使用相同数量的参数和层以及相同的分词器。它能够处理长序列，并且比Longformer或BigBird（来自Transformers）更快、更高效，依赖于局部+稀疏+全局注意力（LSG）机制。

🚀 快速开始

此模型依赖于自定义建模文件，需要添加trust_remote_code=True才能使用。同时，该模型要求序列长度是块大小的倍数，模型具有“自适应”功能，必要时会自动填充序列（在配置中adaptive=True）。不过，建议借助分词器截断输入（truncation=True），并可选择以块大小的倍数进行填充（pad_to_multiple_of=...）。

from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("ccdv/lsg-camembert-base-4096", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-camembert-base-4096")

✨ 主要特性

基于CamemBERT-base适配，无需额外预训练。
能够处理长序列，比Longformer或BigBird更快、更高效。
依赖于局部+稀疏+全局注意力（LSG）机制。
模型具有“自适应”功能，可自动填充序列。

📦 安装指南

该模型依赖于自定义建模文件，使用时需要添加trust_remote_code=True。同时，需要确保Transformers >= 4.36.1。

💻 使用示例

基础用法

from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained("ccdv/lsg-camembert-base-4096", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-camembert-base-4096")

高级用法

参数设置

可以更改各种参数，如全局令牌数量、局部块大小、稀疏块大小、稀疏因子等。

from transformers import AutoModel

model = AutoModel.from_pretrained("ccdv/lsg-camembert-base-4096", 
    trust_remote_code=True, 
    num_global_tokens=16,
    block_size=64,
    sparse_block_size=64,
    attention_probs_dropout_prob=0.0,
    sparsity_factor=4,
    sparsity_type="none",
    mask_first_token=True
)

掩码填充任务

from transformers import FillMaskPipeline, AutoModelForMaskedLM, AutoTokenizer

model = AutoModelForMaskedLM.from_pretrained("ccdv/lsg-camembert-base-4096", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-camembert-base-4096")

SENTENCES = "Paris est la <mask> de la France."
pipeline = FillMaskPipeline(model, tokenizer)
output = pipeline(SENTENCES)

# 输出示例
# 'Paris est la capitale de la France.'

序列分类任务

from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained("ccdv/lsg-camembert-base-4096", 
    trust_remote_code=True, 
    pool_with_global=True, # pool with a global token instead of first token
)
tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-camembert-base-4096")

SENTENCE = "This is a test for sequence classification. " * 300
token_ids = tokenizer(
    SENTENCE, 
    return_tensors="pt", 
    #pad_to_multiple_of=... # Optional
    truncation=True
    )
output = model(**token_ids)

# 输出示例
# SequenceClassifierOutput(loss=None, logits=tensor([[-0.3051, -0.1762]], grad_fn=<AddmmBackward>), hidden_states=None, attentions=None)

训练全局令牌

from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained("ccdv/lsg-camembert-base-4096", 
    trust_remote_code=True, 
    pool_with_global=True, # pool with a global token instead of first token
    num_global_tokens=16
)
tokenizer = AutoTokenizer.from_pretrained("ccdv/lsg-camembert-base-4096")

for name, param in model.named_parameters():
    if "global_embeddings" not in name:
        param.requires_grad = False
    else:
        param.required_grad = True

📚 详细文档

稀疏选择类型

有6种不同的稀疏选择模式，最佳类型取决于任务。

sparsity_type="bos_pooling"（新）：使用BOS令牌进行加权平均池化，通常效果最佳，尤其是在稀疏因子较大（8、16、32）时。
sparsity_type="norm"：选择范数最高的令牌，适用于较小的稀疏因子（2到4）。
sparsity_type="pooling"：使用平均池化合并令牌，适用于较小的稀疏因子（2到4）。
sparsity_type="lsh"：使用LSH算法对相似令牌进行聚类，适用于较大的稀疏因子（4+）。LSH依赖于随机投影，因此不同种子的推理结果可能略有不同。
sparsity_type="stride"：每个头使用不同的令牌，按稀疏因子跨步。如果稀疏因子大于头数，则不建议使用。
sparsity_type="block_stride"：每个头使用按稀疏因子跨步的令牌块。如果稀疏因子大于头数，则不建议使用。

注意事项

如果sparse_block_size=0或sparsity_type="none"，则仅考虑局部注意力。
对于长度小于2*块大小的序列，稀疏选择类型没有影响。

🔧 技术细节

该模型基于CamemBERT-base进行适配，使用局部+稀疏+全局注意力（LSG）机制，能够处理长序列。模型要求序列长度是块大小的倍数，具有“自适应”功能，可自动填充序列。

📄 许可证

CamemBERT引用

@inproceedings{Martin_2020,
	doi = {10.18653/v1/2020.acl-main.645},
	url = {https://doi.org/10.18653%2Fv1%2F2020.acl-main.645},
	year = 2020,
	publisher = {Association for Computational Linguistics},
	author = {Louis Martin and Benjamin Muller and Pedro Javier Ortiz Su{\'{a}}rez and Yoann Dupont and Laurent Romary and {\'{E}}ric de la Clergeri and Djam{\'{e}} Seddah and Beno{\^{\i}}t Sagot},
	title = {{CamemBERT}: a Tasty French Language Model},
	booktitle = {Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics}
}