langdetect开源语言检测模型 - 支持41种古今语言文本快速分类

首页

Langdetect

由 ERCDiDip 开发

基于XLM-RoBERTa-base微调的语言检测模型，支持41种现代和中世纪语言的文本分类

文本分类

Transformers

开源协议:MIT #高精度语言检测 #中世纪语言支持 #41种语言识别

下载量 6,687

发布时间 : 11/25/2022

模型简介

该模型用于语言检测任务，能够识别包括现代和中世纪语言在内的41种语言。适用于需要多语言文本分类的场景。

模型特点

多语言支持

支持41种现代和中世纪语言的检测，包括一些罕见的古语言

高准确率

在测试集上达到99.59%的平均准确率

基于XLM-RoBERTa

利用强大的XLM-RoBERTa-base模型进行微调，具备优秀的跨语言表示能力

模型能力

文本分类

语言检测

多语言处理

使用案例

文档处理

历史文献语言识别

识别中世纪文献的语言类型

准确识别古法语、拉丁语等中世纪语言

多语言内容分类

对包含多种语言的文本进行分类

准确区分41种支持的语言

学术研究

语言学分析

辅助语言学研究者分析文本语言特征

提供高精度的语言识别结果

🚀 XLM - RoBERTa (基础版) 语言检测模型（现代与中世纪语言）

本模型是基于 monasterium.net 数据集对 xlm - roberta - base 进行微调后的版本，可用于检测现代和中世纪的多种语言，为语言识别任务提供了强大的支持。

🚀 快速开始

安装依赖

#Install packages
!pip install transformers --quiet

导入库并定义管道

#Import libraries
import torch
from transformers import pipeline

#Define pipeline
classificator = pipeline("text-classification", model="ERCDiDip/langdetect")

使用管道进行语言检测

#Use pipeline
classificator("clemens etc dilecto filio scolastico ecclesie wetflari ensi treveren dioc salutem etc significarunt nobis dilecti filii commendator et fratres hospitalis beate marie theotonicorum")

✨ 主要特性

多语言支持：支持 41 种现代和中世纪语言的检测，涵盖了欧洲、亚洲等多种语言体系。
高精度：在测试集上的平均准确率达到 99.59%，与平均宏/加权 F1 分数相匹配。
微调优化：基于 Monasterium 和 Wikipedia 数据集进行微调，提升了模型在特定任务上的性能。

📦 安装指南

使用以下命令安装所需的 transformers 库：

!pip install transformers --quiet

💻 使用示例

基础用法

#Install packages
!pip install transformers --quiet

#Import libraries
import torch
from transformers import pipeline

#Define pipeline
classificator = pipeline("text-classification", model="ERCDiDip/langdetect")

#Use pipeline
classificator("clemens etc dilecto filio scolastico ecclesie wetflari ensi treveren dioc salutem etc significarunt nobis dilecti filii commendator et fratres hospitalis beate marie theotonicorum")

📚 详细文档

支持的语言

现代语言

保加利亚语（bg）、克罗地亚语（hr）、捷克语（cs）、丹麦语（da）、荷兰语（nl）、英语（en）、爱沙尼亚语（et）、芬兰语（fi）、法语（fr）、德语（de）、希腊语（el）、匈牙利语（hu）、爱尔兰语（ga）、意大利语（it）、拉脱维亚语（lv）、立陶宛语（lt）、马耳他语（mt）、波兰语（pl）、葡萄牙语（pt）、罗马尼亚语（ro）、斯洛伐克语（sk）、斯洛文尼亚语（sl）、西班牙语（es）、瑞典语（sv）、俄语（ru）、土耳其语（tr）、巴斯克语（eu）、加泰罗尼亚语（ca）、阿尔巴尼亚语（sq）、塞尔维亚语（se）、乌克兰语（uk）、挪威语（no）、阿拉伯语（ar）、中文（zh）、希伯来语（he）

中世纪语言

中古高地德语（mhd）、拉丁语（la）、中古低地德语（gml）、古法语（fro）、古教会斯拉夫语（chu）、早期新高地德语（fnhd）、古希腊和中世纪希腊语（grc）

训练和评估数据

模型使用 Monasterium 和 Wikipedia 数据集进行微调，这些数据集包含 41 种语言的文本序列。训练集包含 80k 个样本，验证集和测试集各包含 16k 个样本。

训练过程

微调通过 Trainer API 和 WeightedLossTrainer 完成。

训练超参数

学习率（learning_rate）：2e - 05
训练批次大小（train_batch_size）：20
评估批次大小（eval_batch_size）：20
随机种子（seed）：42
优化器（optimizer）：Adam，β1 = 0.9，β2 = 0.999，ε = 1e - 08
学习率调度器类型（lr_scheduler_type）：线性
训练轮数（num_epochs）：3
混合精度训练（mixed_precision_training）：Native AMP

训练结果

训练损失（Training Loss）	验证损失（Validation Loss）	F1 分数
0.000300	0.048985	0.991585
0.000100	0.033340	0.994663
0.000000	0.032938	0.995979

🔧 技术细节

本模型基于 XLM - RoBERTa 变压器模型，在其顶部添加了一个分类头。如需了解更多信息，请参考 [XLM - RoBERTa（基础大小模型）](https://huggingface.co/xlm - roberta - base) 卡片或论文 Unsupervised Cross - lingual Representation Learning at Scale by Conneau et al.。

📄 许可证

本模型采用 MIT 许可证。

引用

使用此模型时，请引用以下论文：

@misc{ercdidip2022,
  title={langdetect (Revision 0215f72)},
  author={Kovács, Tamás, Atzenhofer - Baumgartner, Florian, Aoun, Sandy, Nicolaou, Anguelos, Luger, Daniel, Decker, Franziska, Lamminger, Florian and Vogeler, Georg},
  year         = { 2022 },
  url          = { https://huggingface.co/ERCDiDip/40_langdetect_v01 },
  doi          = { 10.57967/hf/0135 },
  publisher    = { Hugging Face }
}

本模型是由欧洲研究委员会资助的 From Digital to Distant Diplomatics (DiDip) ERC 项目的一部分。