语言:
- 多语言
- 阿拉伯语 (ar)
- 保加利亚语 (bg)
- 德语 (de)
- 现代希腊语 (el)
- 英语 (en)
- 西班牙语 (es)
- 法语 (fr)
- 印地语 (hi)
- 意大利语 (it)
- 日语 (ja)
- 荷兰语 (nl)
- 波兰语 (pl)
- 葡萄牙语 (pt)
- 俄语 (ru)
- 斯瓦希里语 (sw)
- 泰语 (th)
- 土耳其语 (tr)
- 乌尔都语 (ur)
- 越南语 (vi)
- 中文 (zh)
许可证: mit
推理: false
标签:
- 语言
- 语言检测
指标:
- 准确率
- F1值
基础模型: papluca/xlm-roberta-base-language-detection
模型索引:
- 名称: xlm-roberta-base-language-detection
结果: []
管道标签: 文本分类
papluca/xlm-roberta-base-language-detection 的 ONNX 版本
此模型是将 papluca/xlm-roberta-base-language-detection 转换为 ONNX 格式,使用了 🤗 Optimum 库。
模型描述
此模型是基于 xlm-roberta-base 在 语言识别 数据集上微调的版本。
该模型是一个带有分类头(即在池化输出之上的线性层)的 XLM-RoBERTa 变换器模型。更多信息请参考 xlm-roberta-base 模型卡片或 Conneau 等人的论文 大规模无监督跨语言表示学习。
预期用途与限制
您可以直接将此模型用作语言检测器,即用于序列分类任务。目前,它支持以下20种语言:
阿拉伯语 (ar)、保加利亚语 (bg)、德语 (de)、现代希腊语 (el)、英语 (en)、西班牙语 (es)、法语 (fr)、印地语 (hi)、意大利语 (it)、日语 (ja)、荷兰语 (nl)、波兰语 (pl)、葡萄牙语 (pt)、俄语 (ru)、斯瓦希里语 (sw)、泰语 (th)、土耳其语 (tr)、乌尔都语 (ur)、越南语 (vi) 和中文 (zh)
使用方法
Optimum
加载模型需要安装 🤗 Optimum 库。
from optimum.onnxruntime import ORTModelForSequenceClassification
from transformers import AutoTokenizer, pipeline
tokenizer = AutoTokenizer.from_pretrained("laiyer/xlm-roberta-base-language-detection-onnx")
model = ORTModelForSequenceClassification.from_pretrained("laiyer/xlm-roberta-base-language-detection-onnx")
classifier = pipeline(
task="text-classification",
model=model,
tokenizer=tokenizer,
top_k=None,
)
classifier_output = ner("这不是有毒评论")
print(classifier_output)
LLM Guard
语言扫描器
社区
加入我们的 Slack,提供反馈、与维护者和其他用户联系、提问或参与关于LLM安全的讨论!
