A

Anglicisms Spanish Flair Cs

由 lirondos 开发
用于检测西班牙新闻中未同化的英语词汇借用的预训练模型,能识别如'fake news'、'machine learning'等外来词汇。
下载量 8,115
发布时间 : 3/29/2022
模型介绍
内容详情
替代品

模型简介

该模型是一个BiLSTM-CRF模型,专门用于检测西班牙语中使用的外来词汇(主要来自英语),如*fake news*、*machine learning*等。

模型特点

多语言词汇借用检测
能够识别西班牙语中未同化的英语词汇借用(ENG标签)以及其他语言的词汇借用(OTHER标签)。
基于语码转换数据预训练
模型输入包括基于Transformer的语码转换数据预训练嵌入,提高了对混合语言文本的处理能力。
高挑战性测试集
测试集设计极具挑战性,覆盖训练集未见的来源和日期,包含大量未登录词(92%的借用词为OOV)。

模型能力

识别西班牙语中的英语借词
识别西班牙语中的其他语言借词
处理多词借用的识别

使用案例

新闻媒体分析
检测新闻中的英语借词
分析西班牙新闻中使用的英语词汇,如'fake news'、'prime time'等。
精确率90.16%,召回率84.34%,F1值87.16%(ENG标签)
语言学研究
词汇借用研究
用于研究西班牙语中未同化词汇借用的分布和趋势。