基于西班牙国家图书馆(BNE)数据训练的长文本模型(Longformer)
目录
点击展开
模型描述
longformer-base-4096-bne-es是基于Longformer架构的西班牙语掩码语言模型,其前身为roberta-base-bne模型。该模型能够处理更长的上下文输入而无需额外聚合策略,其预训练过程始于roberta-base-bne检查点,并在西班牙国家图书馆的长文档上进行了掩码语言建模训练。
Longformer采用滑动窗口(局部)注意力与全局注意力相结合的机制,用户可根据具体任务配置全局注意力模式。详见原始论文。
关于语料库、预训练及评估的详细信息,请参阅官方代码库。
使用场景与限制
longformer-base-4096-bne-es模型当前可直接用于掩码语言建模任务(可通过推理API或下文示例体验填充掩码功能)。
该模型主要适用于经过微调的下游非生成式任务,如问答系统、文本分类或命名实体识别。
使用方法
from transformers import AutoModelForMaskedLM
from transformers import AutoTokenizer, FillMaskPipeline
from pprint import pprint
tokenizer_hf = AutoTokenizer.from_pretrained('PlanTL-GOB-ES/longformer-base-4096-bne-es')
model = AutoModelForMaskedLM.from_pretrained('PlanTL-GOB-ES/longformer-base-4096-bne-es')
model.eval()
pipeline = FillMaskPipeline(model, tokenizer_hf)
text = f"Hay base legal dentro del marco <mask> actual."
res_hf = pipeline(text)
pprint([r['token_str'] for r in res_hf])
局限性与偏差
当前版本尚未进行偏差与毒性评估。需要注意的是,由于训练语料来自多源网络爬取,模型可能存在潜在偏差。相关研究将在未来开展,届时将更新本说明文档。
训练过程
训练语料与预处理
西班牙国家图书馆每年爬取所有.es域名数据。训练语料包含2009至2019年间59TB的WARC文件。
预处理流程包括:分句处理、语言检测、异常语句过滤、内容去重等操作,最终获得2TB高质量西班牙语语料。经全局去重后保留570GB文本。
语料统计信息:
语料库 |
文档数量 |
词元数量 |
体积 |
BNE |
201,080,084 |
135,733,450,668 |
570GB |
本模型使用包含7.2GB文档(长度<4096词元)的随机子集进行训练。
分词与预训练
采用原始RoBERTA模型的字节级BPE分词器(词表大小50,262)。预训练遵循RoBERTa-base方案,在8个计算节点(各含2块32GB显存的AMDM I50 GPU)上耗时40小时完成。
评估结果
微调后的下游任务表现:
数据集 |
指标 |
本模型表现 |
MLDoc |
F1 |
0.9608 |
CoNLL-NERC |
F1 |
0.8757 |
CAPITEL-NERC |
F1 |
0.8985 |
PAWS-X |
F1 |
0.8878 |
UD-POS |
F1 |
0.9903 |
CAPITEL-POS |
F1 |
0.9853 |
SQAC |
F1 |
0.8026 |
STS |
综合得分 |
0.8338 |
XNLI |
准确率 |
0.8210 |
附加信息
作者
巴塞罗那超级计算中心文本挖掘单元(bsc-temu@bsc.es)
联系方式
plantl-gob-es@bsc.es
版权声明
西班牙数字化与人工智能国务秘书处(SEDIA)版权所有(2022)
许可信息
Apache 2.0许可证
资助方
本项目由西班牙数字化与人工智能国务秘书处(SEDIA)在Plan-TL计划框架下资助
免责声明
点击展开
本仓库发布的模型为通用目的设计,可供第三方使用。这些模型可能存在偏差或其他非预期缺陷。
当第三方部署或提供基于这些模型的系统/服务时,应注意其有责任规避使用风险,并确保符合人工智能相关适用法规。
模型所有者(SEDIA)及创建者(BSC)概不承担第三方使用这些模型所产生的任何后果。
Los modelos publicados en este repositorio tienen una finalidad generalista y están a disposición de terceros. Estos modelos pueden tener sesgos y/u otro tipo de distorsiones indeseables.
Cuando terceros desplieguen o proporcionen sistemas y/o servicios a otras partes usando alguno de estos modelos (o utilizando sistemas basados en estos modelos) o se conviertan en usuarios de los modelos, deben tener en cuenta que es su responsabilidad mitigar los riesgos derivados de su uso y, en todo caso, cumplir con la normativa aplicable, incluyendo la normativa en materia de uso de inteligencia artificial.
En ningún caso el propietario de los modelos (SEDIA – Secretaría de Estado de Digitalización e Inteligencia Artificial) ni el creador (BSC – Barcelona Supercomputing Center) serán responsables de los resultados derivados del uso que hagan terceros de estos modelos.