xlm-roberta-large-ner开源命名实体识别模型 - 免费识别乌兹别克语文本多类实体

首页

Xlm Roberta Large Ner

由 risqaliyevds 开发

专为乌兹别克语文本设计的命名实体识别模型，基于XLM-RoBERTa large架构构建，支持多种实体类别识别。

序列标注

Transformers

其他开源协议:MIT #乌兹别克语NER #新闻文本专用 #多实体识别

下载量 195

发布时间 : 5/28/2024

模型简介

该模型能够识别乌兹别克语文本中的人名、地名、机构名、日期等多种命名实体类别，主要针对新闻文本具有较高准确率。

模型特点

多类别实体识别

支持识别18种不同的命名实体类别，包括人名、地名、机构名、日期、货币金额等。

新闻文本优化

模型基于NEWS数据集训练，特别适合新闻文本的命名实体识别任务。

高准确率

在乌兹别克语NER任务上表现出较高的识别准确率。

模型能力

乌兹别克语文本处理

命名实体识别

多类别实体分类

使用案例

文本分析

新闻文本实体提取

从乌兹别克语新闻中提取人名、地名、机构名等关键信息

准确识别新闻中的关键实体

文档信息提取

处理乌兹别克语文档，提取其中的命名实体信息

结构化文档中的关键信息

学术研究

语言学研究

用于乌兹别克语的语言特征和实体分布研究

🚀 乌兹别克语命名实体识别（NER）模型

本模型专为乌兹别克语文本的命名实体识别（NER）而设计，能够识别多种命名实体类别，包括人物、地点、组织、日期等，基于XLM - RoBERTa大模型架构构建。

🚀 快速开始

若要从Hugging Face平台下载并使用该模型，可使用以下代码：

from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification

model_name_or_path = "risqaliyevds/xlm-roberta-large-ner"

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForTokenClassification.from_pretrained(model_name_or_path).to("cuda")

nlp = pipeline("ner", model=model, tokenizer=tokenizer)

✨ 主要特性

多类别识别：该模型能够识别多种命名实体类别，包括但不限于地点、组织、人物、日期、货币金额、百分比等。
高精度：模型在新闻数据集上进行训练，在新闻文本的命名实体识别方面具有较高的准确率。

💻 使用示例

基础用法

from transformers import pipeline, AutoTokenizer, AutoModelForTokenClassification

model_name_or_path = "risqaliyevds/xlm-roberta-large-ner"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForTokenClassification.from_pretrained(model_name_or_path).to("cuda")

nlp = pipeline("ner", model=model, tokenizer=tokenizer)

text = "Shavkat Mirziyoyev Rossiyada rasmiy safarda bo'ldi."
ner = nlp(text)

for entity in ner:
    print(entity)

示例文本："Shavkat Mirziyoyev Rossiyada rasmiy safarda bo'ldi."

结果：

[{'entity': 'B-PERSON', 'score': 0.88995147, 'index': 1, 'word': '▁Shavkat', 'start': 0, 'end': 7},
 {'entity': 'I-PERSON', 'score': 0.980681, 'index': 2, 'word': '▁Mirziyoyev', 'start': 8, 'end': 18},
 {'entity': 'B-GPE', 'score': 0.8208886, 'index': 3, 'word': '▁Rossiya', 'start': 19, 'end': 26}]