L

Langdetect

由 ERCDiDip 开发
基于XLM-RoBERTa-base微调的语言检测模型,支持41种现代和中世纪语言的文本分类
下载量 6,687
发布时间 : 11/25/2022
模型介绍
内容详情
替代品

模型简介

该模型用于语言检测任务,能够识别包括现代和中世纪语言在内的41种语言。适用于需要多语言文本分类的场景。

模型特点

多语言支持
支持41种现代和中世纪语言的检测,包括一些罕见的古语言
高准确率
在测试集上达到99.59%的平均准确率
基于XLM-RoBERTa
利用强大的XLM-RoBERTa-base模型进行微调,具备优秀的跨语言表示能力

模型能力

文本分类
语言检测
多语言处理

使用案例

文档处理
历史文献语言识别
识别中世纪文献的语言类型
准确识别古法语、拉丁语等中世纪语言
多语言内容分类
对包含多种语言的文本进行分类
准确区分41种支持的语言
学术研究
语言学分析
辅助语言学研究者分析文本语言特征
提供高精度的语言识别结果