XLM-RoBERTa(基础版)语言检测模型(现代与中世纪)
此模型是基于monasterium.net数据集对xlm-roberta-base进行微调的版本。
模型描述
该XLM-RoBERTa变压器模型顶部设有一个分类头。更多信息请参阅XLM-RoBERTa(基础模型)卡片或Conneau等人的论文《大规模无监督跨语言表征学习》。
预期用途与限制
您可以直接将此模型用作语言检测器,即用于序列分类任务。目前支持以下41种现代和中世纪语言:
现代语言:保加利亚语(bg)、克罗地亚语(hr)、捷克语(cs)、丹麦语(da)、荷兰语(nl)、英语(en)、爱沙尼亚语(et)、芬兰语(fi)、法语(fr)、德语(de)、希腊语(el)、匈牙利语(hu)、爱尔兰语(ga)、意大利语(it)、拉脱维亚语(lv)、立陶宛语(lt)、马耳他语(mt)、波兰语(pl)、葡萄牙语(pt)、罗马尼亚语(ro)、斯洛伐克语(sk)、斯洛文尼亚语(sl)、西班牙语(es)、瑞典语(sv)、俄语(ru)、土耳其语(tr)、巴斯克语(eu)、加泰罗尼亚语(ca)、阿尔巴尼亚语(sq)、塞尔维亚语(se)、乌克兰语(uk)、挪威语(no)、阿拉伯语(ar)、中文(zh)、希伯来语(he)
中世纪语言:中古高地德语(mhd)、拉丁语(la)、中古低地德语(gml)、古法语(fro)、古教会斯拉夫语(chu)、早期新高地德语(fnhd)、古希腊及中世纪希腊语(grc)
训练与评估数据
模型使用Monasterium和维基百科数据集进行微调,这些数据集包含41种语言的文本序列。训练集包含8万样本,验证集和测试集各包含1.6万样本。测试集平均准确率为99.59%(与平均宏/加权F1分数一致,测试集完全平衡)。
训练流程
通过带有加权损失训练器(WeightedLossTrainer)的Trainer API进行微调。
训练超参数
训练期间使用的超参数如下:
- 学习率:2e-05
- 训练批次大小:20
- 评估批次大小:20
- 随机种子:42
- 优化器:Adam,参数betas=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型:线性
- 训练轮次:3
- 混合精度训练:原生AMP
训练结果
训练损失 |
验证损失 |
F1分数 |
0.000300 |
0.048985 |
0.991585 |
0.000100 |
0.033340 |
0.994663 |
0.000000 |
0.032938 |
0.995979 |
使用示例
#安装包
!pip install transformers --quiet
#导入库
import torch
from transformers import pipeline
#定义管道
classificator = pipeline("text-classification", model="ERCDiDip/langdetect")
#使用管道
classificator("clemens etc dilecto filio scolastico ecclesie wetflari ensi treveren dioc salutem etc significarunt nobis dilecti filii commendator et fratres hospitalis beate marie theotonicorum")
更新日志
- 2022年11月25日:新增古希腊及中世纪希腊语(grc)
框架版本
- Transformers 4.24.0
- Pytorch 1.13.0
- Datasets 2.6.1
- Tokenizers 0.13.3
引用
使用本模型时请引用以下论文:
@misc{ercdidip2022,
title={langdetect (Revision 0215f72)},
author={Kovács, Tamás, Atzenhofer-Baumgartner, Florian, Aoun, Sandy, Nicolaou, Anguelos, Luger, Daniel, Decker, Franziska, Lamminger, Florian and Vogeler, Georg},
year = { 2022 },
url = { https://huggingface.co/ERCDiDip/40_langdetect_v01 },
doi = { 10.57967/hf/0135 },
publisher = { Hugging Face }
}
本模型属于欧盟研究理事会资助的《从数字到远程外交(DiDip)ERC项目》的一部分。