语言:
- 西班牙语
许可证: cc-by-4.0
标签:
- 英语借词 # 示例: 音频
- 外来词 # 示例: 自动语音识别
- 借用 # 示例: 语音
- 语码转换 # 示例指定库: allennlp
- flair
- 标记分类
- 序列标注模型
- arxiv:2203.16169
数据集:
- coalas # 示例: common_voice。使用来自https://hf.co/datasets的数据集ID
小部件:
- 文本: "关于名人的假新闻在黄金时段通过'大众媒体'传播。"
- 文本: "在'红毯'上,她展示了一个非常都市的造型,搭配受动漫启发的厚底鞋。"
- 文本: "Benching,坐在你暗恋对象的替补席上,而别人是首发。"
- 文本: "十一月的批量烹饪食谱。"
- 文本: "我们寻找具备机器学习和区块链知识的'数据科学家'。"
西班牙语英语借词检测模型(基于Flair与语码转换)
这是一个预训练模型,用于检测西班牙新闻中未同化的英语词汇借用(即英语借词)。该模型能识别西班牙语中使用的外来词汇(主要来自英语),如fake news、machine learning、smartwatch、influencer或streaming。
该模型是一个BiLSTM-CRF模型,输入包括基于Transformer的语码转换数据预训练嵌入以及子词嵌入(BPE和字符嵌入)。模型在COALAS语料库上训练,用于检测词汇借用。
模型定义了两个标签:
ENG
:英语词汇借用(如smartphone、online、podcast)
OTHER
:其他语言的词汇借用(如boutique、anime、umami)
模型采用BIO编码以处理多词借用的识别。
⚠ 另有一个基于mBERT的模型用于相同任务,使用Transformers
库训练。但该模型性能低于此Flair模型(F1 = 83.55)。
评估指标(测试集)
在COALAS语料库测试集上的结果:
标签 |
精确率 |
召回率 |
F1值 |
全部 |
90.14 |
81.79 |
85.76 |
ENG |
90.16 |
84.34 |
87.16 |
OTHER |
85.71 |
13.04 |
22.64 |
数据集
模型训练使用COALAS,一个标注未同化词汇借用的西班牙新闻语料库。该库包含37万词例,涵盖欧洲西班牙语多种书面媒体。测试集设计极具挑战性:覆盖训练集未见的来源和日期,包含大量未登录词(测试集中92%的借用词为OOV),且借用密度极高(每千词20个借用)。
集合 |
词例数 |
ENG |
OTHER |
唯一词数 |
训练集 |
231,126 |
1,493 |
28 |
380 |
开发集 |
82,578 |
306 |
49 |
316 |
测试集 |
58,997 |
1,239 |
46 |
987 |
总计 |
372,701 |
3,038 |
123 |
1,683 |
更多信息
关于数据集、模型实验及错误分析的详细信息,请参阅论文:Detecting Unassimilated Borrowings in Spanish: An Annotated Corpus and Approaches to Modeling。
使用方式
from flair.data import Sentence
from flair.models import SequenceTagger
import pathlib
import os
if os.name == 'nt':
temp = pathlib.PosixPath
pathlib.PosixPath = pathlib.WindowsPath
tagger = SequenceTagger.load("lirondos/anglicisms-spanish-flair-cs")
text = "Las fake news sobre la celebrity se reprodujeron por los mass media en prime time."
sentence = Sentence(text)
tagger.predict(sentence)
print(sentence)
print('发现以下借用词:')
for entity in sentence.get_spans():
print(entity)
引用
若使用本模型,请引用:
@inproceedings{alvarez-mellado-lignos-2022-detecting,
title = "Detecting Unassimilated Borrowings in {S}panish: {A}n Annotated Corpus and Approaches to Modeling",
author = "{\'A}lvarez-Mellado, Elena and
Lignos, Constantine",
booktitle = "Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
month = may,
year = "2022",
address = "Dublin, Ireland",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2022.acl-long.268",
pages = "3868--3888",
abstract = "本研究提出了新的借用识别资源,并分析了多模型在该任务上的表现与错误。我们发布了富含未同化词汇借用的西班牙新闻标注语料库——这些词汇未经拼写适应即被引入目标语言——并评估多种序列标注模型(CRF、BiLSTM-CRF及基于Transformer的模型)的表现。该语料库包含37万词例,在规模、借用密度、未登录词比例和主题多样性上均超越现有资源。实验表明,当BiLSTM-CRF模型结合子词嵌入与基于语码转换数据预训练的Transformer嵌入,或结合上下文词嵌入组合时,其性能优于基于多语言BERT的模型。",
}