🚀 mLUKE
mLUKE(多语言LUKE)是LUKE的多语言扩展版本。它能够在多种语言环境下处理命名实体识别、关系分类和问答等任务。
请访问官方仓库以获取更多详细信息和更新内容。
🚀 快速开始
本模型为mLUKE基础模型,具有12个隐藏层,隐藏层维度为768。该模型的参数总量为5.61亿。模型使用XLM - RoBERTa(大模型)的权重进行初始化,并使用2020年12月版的24种语言的维基百科数据进行训练。
此模型是studio - ousia/mluke - large的轻量级版本,不包含维基百科实体嵌入,仅包含如[MASK]
等特殊实体。
⚠️ 重要提示
当你使用AutoModel.from_pretrained
以默认配置加载模型时,会看到以下警告信息:
Some weights of the model checkpoint at studio-ousia/mluke-base-lite were not used when initializing LukeModel: [
'luke.encoder.layer.0.attention.self.w2e_query.weight', 'luke.encoder.layer.0.attention.self.w2e_query.bias',
'luke.encoder.layer.0.attention.self.e2w_query.weight', 'luke.encoder.layer.0.attention.self.e2w_query.bias',
'luke.encoder.layer.0.attention.self.e2e_query.weight', 'luke.encoder.layer.0.attention.self.e2e_query.bias',
...]
这些权重是用于实体感知注意力的权重(如LUKE论文中所述)。这是正常现象,因为默认情况下use_entity_aware_attention
设置为false
,但预训练权重中包含了这些权重,以防你启用use_entity_aware_attention
并将这些权重加载到模型中。
📄 许可证
本项目采用Apache 2.0许可证。
📚 引用
如果你发现mLUKE对你的工作有帮助,请引用以下论文:
@inproceedings{ri-etal-2022-mluke,
title = "m{LUKE}: {T}he Power of Entity Representations in Multilingual Pretrained Language Models",
author = "Ri, Ryokan and
Yamada, Ikuya and
Tsuruoka, Yoshimasa",
booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
year = "2022",
url = "https://aclanthology.org/2022.acl-long.505",
📋 信息表格
属性 |
详情 |
支持语言 |
阿拉伯语、孟加拉语、德语、希腊语、英语、西班牙语、芬兰语、法语、印地语、印尼语、意大利语、日语、韩语、荷兰语、波兰语、葡萄牙语、俄语、瑞典语、斯瓦希里语、泰卢固语、泰语、土耳其语、越南语、中文等 |
模型类型 |
多语言LUKE基础轻量级模型 |
训练数据 |
2020年12月版的24种语言的维基百科数据 |
模型参数 |
12个隐藏层,隐藏层维度768,总参数5.61亿 |