xlm - roberta - base - language - detection开源模型 - 免费检测20种语言文本分类

首页

Xlm Roberta Base Language Detection

由 papluca 开发

基于XLM-RoBERTa的多语言检测模型，支持20种语言的文本分类

文本分类

Transformers

支持多种语言开源协议:MIT #多语言检测 #高准确率 #文本分类

下载量 2.7M

发布时间 : 3/2/2022

模型简介

该模型是基于XLM-RoBERTa在语言识别数据集上微调后的版本，用于识别文本的语言类别。

模型特点

高准确率

在测试集上达到99.6%的平均准确率

多语言支持

支持20种常见语言的检测

基于XLM-RoBERTa

利用强大的跨语言预训练模型作为基础

模型能力

文本语言识别

多语言文本分类

使用案例

内容分类

多语言网站内容分类

自动识别用户提交内容的语言类别

准确率高达99.6%

数据预处理

多语言数据集预处理

在NLP任务前自动识别文本语言

提高后续处理效率

🚀 xlm-roberta-base语言检测模型

本模型是基于Transformer架构的语言检测模型，它在多语言文本分类任务中表现出色，能精准识别20种不同语言，为跨语言文本处理提供了强大支持。

🚀 快速开始

本模型可直接作为语言检测器使用，即用于序列分类任务。以下为你提供了两种使用方式，你可以根据需求选择。

方式一：使用高级 `pipeline` API

from transformers import pipeline

text = [
    "Brevity is the soul of wit.",
    "Amor, ch'a nullo amato amar perdona."
]

model_ckpt = "papluca/xlm-roberta-base-language-detection"
pipe = pipeline("text-classification", model=model_ckpt)
pipe(text, top_k=1, truncation=True)

方式二：分别使用分词器和模型

import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer

text = [
    "Brevity is the soul of wit.",
    "Amor, ch'a nullo amato amar perdona."
]

model_ckpt = "papluca/xlm-roberta-base-language-detection"
tokenizer = AutoTokenizer.from_pretrained(model_ckpt)
model = AutoModelForSequenceClassification.from_pretrained(model_ckpt)

inputs = tokenizer(text, padding=True, truncation=True, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

preds = torch.softmax(logits, dim=-1)

# Map raw predictions to languages
id2lang = model.config.id2label
vals, idxs = torch.max(preds, dim=1)
{id2lang[k.item()]: v.item() for k, v in zip(idxs, vals)}

✨ 主要特性

多语言支持：支持20种语言的检测，包括阿拉伯语（ar）、保加利亚语（bg）、德语（de）、现代希腊语（el）、英语（en）、西班牙语（es）、法语（fr）、印地语（hi）、意大利语（it）、日语（ja）、荷兰语（nl）、波兰语（pl）、葡萄牙语（pt）、俄语（ru）、斯瓦希里语（sw）、泰语（th）、土耳其语（tr）、乌尔都语（ur）、越南语（vi）和中文（zh）。
高精度：在测试集上的平均准确率达到99.6%，与平均宏/加权F1分数相匹配。

📦 安装指南

文档未提及安装步骤，暂不提供相关内容。

💻 使用示例

基础用法

from transformers import pipeline

text = [
    "Brevity is the soul of wit.",
    "Amor, ch'a nullo amato amar perdona."
]

model_ckpt = "papluca/xlm-roberta-base-language-detection"
pipe = pipeline("text-classification", model=model_ckpt)
pipe(text, top_k=1, truncation=True)

高级用法

import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer

text = [
    "Brevity is the soul of wit.",
    "Amor, ch'a nullo amato amar perdona."
]

model_ckpt = "papluca/xlm-roberta-base-language-detection"
tokenizer = AutoTokenizer.from_pretrained(model_ckpt)
model = AutoModelForSequenceClassification.from_pretrained(model_ckpt)

inputs = tokenizer(text, padding=True, truncation=True, return_tensors="pt")

with torch.no_grad():
    logits = model(**inputs).logits

preds = torch.softmax(logits, dim=-1)

# Map raw predictions to languages
id2lang = model.config.id2label
vals, idxs = torch.max(preds, dim=1)
{id2lang[k.item()]: v.item() for k, v in zip(idxs, vals)}

📚 详细文档

模型描述

本模型是 xlm-roberta-base 在语言识别数据集上进行微调后的版本。它是一个XLM - RoBERTa变压器模型，顶部带有一个分类头（即在池化输出之上有一个线性层）。如需更多信息，请参考 xlm-roberta-base 模型卡片或Conneau等人的论文大规模无监督跨语言表征学习。

预期用途和限制

你可以直接将此模型用作语言检测器，即用于序列分类任务。目前，它支持以下20种语言：

阿拉伯语 (ar)、保加利亚语 (bg)、德语 (de)、现代希腊语 (el)、英语 (en)、西班牙语 (es)、法语 (fr)、印地语 (hi)、意大利语 (it)、日语 (ja)、荷兰语 (nl)、波兰语 (pl)、葡萄牙语 (pt)、俄语 (ru)、斯瓦希里语 (sw)、泰语 (th)、土耳其语 (tr)、乌尔都语 (ur)、越南语 (vi) 和中文 (zh)

训练和评估数据

该模型在语言识别数据集上进行了微调，该数据集由20种语言的文本序列组成。训练集包含70k个样本，而验证集和测试集各包含10k个样本。测试集上的平均准确率为 99.6%（这与平均宏/加权F1分数相匹配，因为测试集是完全平衡的）。以下表格提供了更详细的评估信息。

语言	精确率	召回率	F1分数	支持样本数
ar	0.998	0.996	0.997	500
bg	0.998	0.964	0.981	500
de	0.998	0.996	0.997	500
el	0.996	1.000	0.998	500
en	1.000	1.000	1.000	500
es	0.967	1.000	0.983	500
fr	1.000	1.000	1.000	500
hi	0.994	0.992	0.993	500
it	1.000	0.992	0.996	500
ja	0.996	0.996	0.996	500
nl	1.000	1.000	1.000	500
pl	1.000	1.000	1.000	500
pt	0.988	1.000	0.994	500
ru	1.000	0.994	0.997	500
sw	1.000	1.000	1.000	500
th	1.000	0.998	0.999	500
tr	0.994	0.992	0.993	500
ur	1.000	1.000	1.000	500
vi	0.992	1.000	0.996	500
zh	1.000	1.000	1.000	500

基准测试

作为与 xlm-roberta-base语言检测 模型进行比较的基线，我们使用了Python langid 库。由于它预先在97种语言上进行了训练，我们使用了其 .set_languages() 方法将语言集限制为我们的20种语言。langid在测试集上的平均准确率为 98.5%。以下表格提供了更多详细信息。

语言	精确率	召回率	F1分数	支持样本数
ar	0.990	0.970	0.980	500
bg	0.998	0.964	0.981	500
de	0.992	0.944	0.967	500
el	1.000	0.998	0.999	500
en	1.000	1.000	1.000	500
es	1.000	0.968	0.984	500
fr	0.996	1.000	0.998	500
hi	0.949	0.976	0.963	500
it	0.990	0.980	0.985	500
ja	0.927	0.988	0.956	500
nl	0.980	1.000	0.990	500
pl	0.986	0.996	0.991	500
pt	0.950	0.996	0.973	500
ru	0.996	0.974	0.985	500
sw	1.000	1.000	1.000	500
th	1.000	0.996	0.998	500
tr	0.990	0.968	0.979	500
ur	0.998	0.996	0.997	500
vi	0.971	0.990	0.980	500
zh	1.000	1.000	1.000	500