mluke-large-lite开源多语言模型 - 支持24种语言命名实体识别等任务

首页

Mluke Large Lite

由 studio-ousia 开发

mLUKE是LUKE的多语言扩展版本，支持24种语言的命名实体识别、关系分类和问答系统任务

大型语言模型

Transformers

支持多种语言开源协议:Apache-2.0 #多语言实体识别 #跨语言关系分类 #维基百科预训练

下载量 65

发布时间 : 4/13/2022

模型简介

mLUKE是LUKE的多语言扩展版本，基于XLM-RoBERTa大模型初始化，使用24种语言的维基百科数据训练。精简版移除了维基百科实体嵌入，仅保留特殊实体标记

模型特点

多语言支持

支持24种语言的文本处理任务

精简设计

移除了维基百科实体嵌入，保留核心功能

实体感知注意力机制

可选启用实体感知注意力机制，增强对实体的处理能力

模型能力

多语言文本理解

命名实体识别

关系分类

问答系统

使用案例

自然语言处理

跨语言实体识别

在多语言文本中识别命名实体

关系抽取

从文本中提取实体间的关系

🚀 mLUKE

mLUKE（多语言LUKE）是LUKE的多语言扩展版本。它能够在多种语言环境下处理命名实体识别、关系分类和问答等任务。

请访问官方仓库以获取更多详细信息和更新内容。

🚀 快速开始

本模型为mLUKE基础模型，具有12个隐藏层，隐藏层维度为768。该模型的参数总量为5.61亿。模型使用XLM - RoBERTa（大模型）的权重进行初始化，并使用2020年12月版的24种语言的维基百科数据进行训练。

此模型是studio - ousia/mluke - large的轻量级版本，不包含维基百科实体嵌入，仅包含如[MASK]等特殊实体。

⚠️ 重要提示

当你使用AutoModel.from_pretrained以默认配置加载模型时，会看到以下警告信息：

Some weights of the model checkpoint at studio-ousia/mluke-base-lite were not used when initializing LukeModel: [
'luke.encoder.layer.0.attention.self.w2e_query.weight', 'luke.encoder.layer.0.attention.self.w2e_query.bias', 
'luke.encoder.layer.0.attention.self.e2w_query.weight', 'luke.encoder.layer.0.attention.self.e2w_query.bias', 
'luke.encoder.layer.0.attention.self.e2e_query.weight', 'luke.encoder.layer.0.attention.self.e2e_query.bias', 
...]

这些权重是用于实体感知注意力的权重（如LUKE论文中所述）。这是正常现象，因为默认情况下use_entity_aware_attention设置为false，但预训练权重中包含了这些权重，以防你启用use_entity_aware_attention并将这些权重加载到模型中。

📄 许可证

本项目采用Apache 2.0许可证。

📚 引用

如果你发现mLUKE对你的工作有帮助，请引用以下论文：

@inproceedings{ri-etal-2022-mluke,
    title = "m{LUKE}: {T}he Power of Entity Representations in Multilingual Pretrained Language Models",
    author = "Ri, Ryokan  and
      Yamada, Ikuya  and
      Tsuruoka, Yoshimasa",
    booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    year = "2022",
    url = "https://aclanthology.org/2022.acl-long.505",

📋 信息表格

属性	详情
支持语言	阿拉伯语、孟加拉语、德语、希腊语、英语、西班牙语、芬兰语、法语、印地语、印尼语、意大利语、日语、韩语、荷兰语、波兰语、葡萄牙语、俄语、瑞典语、斯瓦希里语、泰卢固语、泰语、土耳其语、越南语、中文等
模型类型	多语言LUKE基础轻量级模型
训练数据	2020年12月版的24种语言的维基百科数据
模型参数	12个隐藏层，隐藏层维度768，总参数5.61亿