license: cc-by-nc-4.0
language:
- 韩语
pipeline_tag: token-classification
library_name: gliner
GLiNER-ko模型卡片
GLiNER是一种命名实体识别(NER)模型,能够使用双向Transformer编码器(类似BERT)识别任何实体类型。它为传统NER模型提供了实用替代方案,后者仅限于预定义实体;同时也区别于大型语言模型(LLMs),尽管LLMs具有灵活性,但在资源受限场景下成本高昂且体积庞大。
本版本基于多种韩语NER数据集训练(研究用途)。商业授权版本可获取(urchade/gliner_smallv2、urchade/gliner_mediumv2、urchade/gliner_largev2)
相关链接
- 论文: https://arxiv.org/abs/2311.08526
- 代码库: https://github.com/urchade/GLiNER
安装
使用本模型需安装GLiNER Python库的韩语分支及mecab-ko:
!pip install gliner
!pip install python-mecab-ko
使用方法
安装GLiNER库后,导入GLiNER类。通过GLiNER.from_pretrained
加载本模型,使用predict_entities
预测实体。
from gliner import GLiNER
model = GLiNER.from_pretrained("taeminlee/gliner_ko")
text = """
彼得·杰克逊爵士(,1961年10月31日~)是新西兰电影导演、编剧、制片人。他因执导改编自J.R.R.托尔金小说的《指环王电影三部曲》(2001-2003年)而闻名。2005年他执导了1933年版《金刚》的重拍片《金刚(2005)》。
"""
tta_labels = ["人造物","动物","文明","日期","事件","研究领域","地点","材料","组织","人物","植物","数量","时间","术语","理论"]
entities = model.predict_entities(text, labels)
for entity in entities:
print(entity["text"], "=>", entity["label"])
彼得·杰克逊爵士 => 人物
1961年10月31日~ => 日期
新西兰 => 地点
电影导演 => 文明
编剧 => 文明
电影 => 文明
制片人 => 文明
J.R.R.托尔金 => 人物
三部曲 => 数量
2001-2003年 => 日期
执导 => 文明
2005年 => 日期
1933年版 => 日期
金刚 => 人造物
金刚 => 人造物
2005 => 日期
执导 => 文明
命名实体识别基准测试结果
基于konne开发集评估
模型 |
精确率(P) |
召回率(R) |
F1值 |
Gliner-ko (t=0.5) |
72.51% |
79.82% |
75.99% |
Gliner Large-v2 (t=0.5) |
34.33% |
19.50% |
24.87% |
Gliner Multi (t=0.5) |
40.94% |
34.18% |
37.26% |
Pororo |
70.25% |
57.94% |
63.50% |
模型作者
模型作者包括:
引用文献
@misc{zaratiana2023gliner,
title={GLiNER: 基于双向Transformer的通用命名实体识别模型},
author={Urchade Zaratiana and Nadi Tomeh and Pierre Holat and Thierry Charnois},
year={2023},
eprint={2311.08526},
archivePrefix={arXiv},
primaryClass={cs.CL}
}