esco-xlm-roberta-large开源多语言模型 - 优化就业市场领域，27种语言序列标注分类佳

首页

Esco Xlm Roberta Large

由 jjzha 开发

ESCOXLM-R是基于XLM-R-large架构的多语言预训练模型，专门针对就业市场领域优化，支持27种语言，在多项序列标注和分类任务中表现优异。

大型语言模型

Transformers

其他开源协议:Apache-2.0 #多语言ESCO分类 #就业市场NLP #动态掩码预训练

下载量 603

发布时间 : 5/3/2023

模型简介

该模型通过欧洲技能、能力、资格和职业（ESCO）分类体系进行领域自适应预训练，适用于技能提取、技能分类、职位分类及去标识化等任务。

模型特点

多语言ESCO分类关系诱导

创新的预训练目标，通过ESCO分类体系增强多语言关系表示能力。

领域自适应预训练

专门针对就业市场领域优化，在短跨度文本和实体级任务中表现突出。

动态掩码语言建模

采用动态掩码策略提升模型的语言理解能力。

模型能力

多语言文本理解

技能提取

职位分类

序列标注

文本分类

使用案例

人力资源

职位发布分析

自动解析职位描述中的技能要求和职位类别。

在6/9数据集中达到最先进水平

简历技能匹配

识别简历中的技能并与职位要求自动匹配。

就业市场研究

技能趋势分析

从招聘广告中提取技能需求变化趋势。

🚀 ESCOXLM - R：面向就业市场领域的多语言预训练模型

ESCOXLM - R 是一个基于 XLM - r（large）的语言模型，它在欧洲技能、能力、资格和职业（ESCO）分类法上进行领域自适应预训练，覆盖 27 种语言。该模型在多个序列标注和分类任务中取得了优异的成绩，为就业市场领域的自然语言处理任务提供了强大的支持。

🚀 快速开始

ESCOXLM - R 模型主要用于就业市场领域的自然语言处理任务。它基于 XLM - r（large）进行了领域自适应预训练，在欧洲技能、能力、资格和职业（ESCO）分类法上进行训练，覆盖 27 种语言。预训练目标包括动态掩码语言建模和一个用于诱导多语言分类 ESCO 关系的新目标。

📚 详细文档

论文信息

本模型伴随以下论文：

ESCOXLM - R: Multilingual Taxonomy - driven Pre - training for the Job Market Domain

Mike Zhang, Rob van der Goot, and Barbara Plank. In ACL (2023).

模型介绍

我们引入了一种名为 ESCOXLM - R 的语言模型，它基于 XLM - r（large），在欧洲技能、能力、资格和职业（ESCO）分类法上进行领域自适应预训练，覆盖 27 种语言。ESCOXLM - R 的预训练目标包括动态掩码语言建模和一个用于诱导多语言分类 ESCO 关系的新目标（更多详细信息请参阅论文）。

实验评估

我们全面评估了 ESCOXLM - R 在 4 种语言的 6 个序列标注和 3 个分类任务中的性能，发现它在 9 个数据集中的 6 个上取得了最先进的结果。

引用信息

如果您使用了这项工作，请引用以下内容：

@inproceedings{zhang-etal-2023-escoxlm,
    title = "{ESCOXLM}-{R}: Multilingual Taxonomy-driven Pre-training for the Job Market Domain",
    author = "Zhang, Mike  and
      van der Goot, Rob  and
      Plank, Barbara",
    booktitle = "Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    month = jul,
    year = "2023",
    address = "Toronto, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2023.acl-long.662",
    pages = "11871--11890",
    abstract = "The increasing number of benchmarks for Natural Language Processing (NLP) tasks in the computational job market domain highlights the demand for methods that can handle job-related tasks such as skill extraction, skill classification, job title classification, and de-identification. While some approaches have been developed that are specific to the job market domain, there is a lack of generalized, multilingual models and benchmarks for these tasks. In this study, we introduce a language model called ESCOXLM-R, based on XLM-R-large, which uses domain-adaptive pre-training on the European Skills, Competences, Qualifications and Occupations (ESCO) taxonomy, covering 27 languages. The pre-training objectives for ESCOXLM-R include dynamic masked language modeling and a novel additional objective for inducing multilingual taxonomical ESCO relations. We comprehensively evaluate the performance of ESCOXLM-R on 6 sequence labeling and 3 classification tasks in 4 languages and find that it achieves state-of-the-art results on 6 out of 9 datasets. Our analysis reveals that ESCOXLM-R performs better on short spans and outperforms XLM-R-large on entity-level and surface-level span-F1, likely due to ESCO containing short skill and occupation titles, and encoding information on the entity-level.",
}

📄 许可证

本模型使用 Apache - 2.0 许可证。

📦 模型信息

属性	详情
模型类型	基于 XLM - r（large）的多语言预训练模型
训练数据	欧洲技能、能力、资格和职业（ESCO）分类法，覆盖 27 种语言
适用任务	序列标注、分类任务