L

Language Detection

由 alexneakameni 开发
基于BERT的多语言检测模型,支持200种语言的文本分类任务
下载量 1,210
发布时间 : 2/13/2025
模型介绍
内容详情
替代品

模型简介

这是一个基于BERT架构的语言检测模型,专门用于快速准确地识别文本的语言类型。模型在包含200种语言的1.21亿条句子的数据集上训练,具有高准确率和召回率。

模型特点

多语言支持
支持200种语言的检测,包括主要欧洲语言、亚洲语言和非洲语言
高准确率
在测试集上达到0.9733的准确率,F1分数0.9733
数据增强
采用多种文本增强策略提高模型鲁棒性,包括移除数字、打乱词序等
高效架构
基于BERT的精简架构,4层Transformer,适合快速推理

模型能力

文本语言识别
多语言文本分类
短文本语言检测
长文本语言检测

使用案例

内容管理
多语言内容分类
自动识别用户生成内容的语言类型
准确率97.33%
翻译系统
翻译前语言检测
在翻译流程前自动检测输入文本语言
支持200种语言识别