许可证: mit
语言:
- 乌兹别克语
指标:
- 准确率
任务标签: 令牌分类
标签:
- 命名实体识别
- 乌兹别克语命名实体识别
- 乌兹别克语NER
乌兹别克语命名实体识别(NER)模型
模型简介
本模型专为乌兹别克语文本的命名实体识别(NER)设计,能够识别包括人名、地名、机构名、日期等多种命名实体类别。该模型基于XLM-RoBERTa large架构构建。
重要说明!!!
本模型基于NEWS数据集训练,主要针对新闻文本的NER识别具有较高准确率。
识别类别
模型可识别以下NER类别:
- LOC (地名)
- ORG (机构名)
- PERSON (人名)
- DATE (日期表达式)
- MONEY (货币金额)
- PERCENT (百分比值)
- QUANTITY (数量词)
- TIME (时间表达式)
- PRODUCT (产品名)
- EVENT (事件名)
- WORK_OF_ART (艺术品名称)
- LANGUAGE (语言名称)
- CARDINAL (基数词)
- ORDINAL (序数词)
- NORP (民族/宗教/政治团体)
- FACILITY (设施名称)
- LAW (法律法规)
- GPE (国家/城市/州)
示例演示
以下是模型使用示例:
from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification
model_name_or_path = "risqaliyevds/xlm-roberta-large-ner"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForTokenClassification.from_pretrained(model_name_or_path).to("cuda")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
text = "Shavkat Mirziyoyev Rossiyada rasmiy safarda bo'ldi."
ner = nlp(text)
for entity in ner:
print(entity)
示例文本:"Shavkat Mirziyoyev Rossiyada rasmiy safarda bo'ldi."
输出结果:
[{'entity': 'B-PERSON', 'score': 0.88995147, 'index': 1, 'word': '▁Shavkat', 'start': 0, 'end': 7},
{'entity': 'I-PERSON', 'score': 0.980681, 'index': 2, 'word': '▁Mirziyoyev', 'start': 8, 'end': 18},
{'entity': 'B-GPE', 'score': 0.8208886, 'index': 3, 'word': '▁Rossiya', 'start': 19, 'end': 26}]
模型加载与使用
通过Hugging Face平台下载和使用模型的代码如下:
from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification
model_name_or_path = "risqaliyevds/xlm-roberta-large-ner"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForTokenClassification.from_pretrained(model_name_or_path).to("cuda")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
联系方式
如有疑问或需要更多信息,请联系我们。
领英: Riskaliev Murad
许可证
本模型为开源项目,所有用户均可免费使用。
结语
该乌兹别克语NER模型能有效识别文本中的各类命名实体,其高准确率和广泛的识别类别使其适用于学术研究、文档分析等多个领域。