语言:
- 多语言
- 阿拉伯语 (ar)
- 孟加拉语 (bn)
- 德语 (de)
- 希腊语 (el)
- 英语 (en)
- 西班牙语 (es)
- 芬兰语 (fi)
- 法语 (fr)
- 印地语 (hi)
- 印尼语 (id)
- 意大利语 (it)
- 日语 (ja)
- 韩语 (ko)
- 荷兰语 (nl)
- 波兰语 (pl)
- 葡萄牙语 (pt)
- 俄语 (ru)
- 瑞典语 (sv)
- 斯瓦希里语 (sw)
- 泰卢固语 (te)
- 泰语 (th)
- 土耳其语 (tr)
- 越南语 (vi)
- 中文 (zh)
缩略图: https://github.com/studio-ousia/luke/raw/master/resources/luke_logo.png
标签:
许可证: apache-2.0
mLUKE
mLUKE(多语言LUKE)是LUKE的多语言扩展版本。
更多详情和更新,请查看官方仓库。
这是mLUKE的基础模型,包含12个隐藏层,768个隐藏单元。模型总参数量为561M。该模型以XLM-RoBERTa(大模型)的权重初始化,并使用2020年12月版本的24种语言维基百科数据进行训练。
此模型是studio-ousia/mluke-large的轻量版,不包含维基百科实体嵌入,仅保留特殊实体如[MASK]
。
注意事项
当使用默认配置通过AutoModel.from_pretrained
加载模型时,您会看到以下警告:
模型检查点studio-ousia/mluke-base-lite的部分权重在初始化LukeModel时未被使用: [
'luke.encoder.layer.0.attention.self.w2e_query.weight', 'luke.encoder.layer.0.attention.self.w2e_query.bias',
'luke.encoder.layer.0.attention.self.e2w_query.weight', 'luke.encoder.layer.0.attention.self.e2w_query.bias',
'luke.encoder.layer.0.attention.self.e2e_query.weight', 'luke.encoder.layer.0.attention.self.e2e_query.bias',
...]
这些权重是为实体感知注意力机制设计的(如LUKE论文所述)。这是预期现象,因为默认情况下use_entity_aware_attention
设置为false
,但预训练权重仍保留了相关参数,以便在启用use_entity_aware_attention
时能加载这些权重。
引用
如果您的研究工作中使用了mLUKE,请引用以下论文:
@inproceedings{ri-etal-2022-mluke,
title = "m{LUKE}: {T}he Power of Entity Representations in Multilingual Pretrained Language Models",
author = "Ri, Ryokan and
Yamada, Ikuya and
Tsuruoka, Yoshimasa",
booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
year = "2022",
url = "https://aclanthology.org/2022.acl-long.505",