许可协议: cc-by-sa-4.0
基础模型: numind/NuNER-v1.0
标签:
- 标记分类
- 命名实体识别
- ner
评估指标:
- 精确率
- 召回率
- F1值
- 准确率
模型索引:
- 名称: nuner-v1_orgs
结果:
- 任务:
类型: 标记分类
名称: 命名实体识别
数据集:
名称: FewNERD, CoNLL2003 和 OntoNotes v5
类型: tomaarsen/ner-orgs
拆分: 测试集
指标:
- 类型: F1值
数值: 0.7798010380622837
名称: F1
- 类型: 精确率
数值: 0.7605247616637139
名称: 精确率
- 类型: 召回率
数值: 0.800079879293512
名称: 召回率
- 类型: 准确率
数值: 0.9769673789973878
名称: 准确率
数据集:
- tomaarsen/ner-orgs
语言:
- 英语
库名称: transformers
管道标签: 标记分类
小部件示例:
- 文本: 尼日尔铀矿废料储存计划引发担忧与质疑。在尼日尔北部阿尔利特地区,沙漠中点缀着高耸的土堆,但这些是来自全球最大铀矿之一四十年运营留下的部分放射性废料。一项耗资1.6亿美元的十年雄心计划正在进行中,旨在确保废料安全并避免对健康和环境的风险,但许多当地人表示担忧或怀疑。法国核能巨头阿海珐(现更名为欧安诺)通过子公司阿库塔矿业公司(Cominak)在该地区运营。Cominak在提取7.5万吨铀后于2021年关闭该矿场,其中大部分用于为法国电力供应支柱的数十座核反应堆提供燃料。Cominak总经理马哈曼·萨尼·阿卜杜拉耶向自2010年以来首批访问该矿场的法国记者展示了修复项目,当年曾有七名阿海珐员工被圣战分子绑架。
- 文本: 密歇根东南部县指控胰岛素价格欺诈;地方政府对制药商提起诉讼。底特律都会区四个县周三向联邦法院提起诉讼,指控全国一些最大的制药制造商和药房福利管理公司对胰岛素产品进行非法价格操纵。根据律师说法,马科姆、门罗、韦恩和沃什特瑙县在新泽西州联邦地区法院对包括礼来、赛诺菲安万特、诺和诺德、快捷药方、Optum Rx和CVS Caremark在内的十几家公司提起诉讼。"这些是密歇根州首次提起的此类诉讼,预计还会有更多,"米勒律师事务所律师梅尔文·布奇·霍洛威尔表示。他在新闻发布会上描述了这些指控,称在全国范围内"药房和制造商串通一气。他们各自控制了约90%的胰岛素市场。他们秘密沟通。然后通过反竞争手段抬高价格。我们看到的是过去20年里,价格被抬高了1500%。1500%。"
- 文本: 参议员称外国政府可能正在监视你的智能手机通知。华盛顿(CNN)——据美国资深参议员透露,外国政府据称试图通过智能手机用户接收的移动应用通知来监视iPhone和Android用户,而美国政府迫使苹果和谷歌对此保持沉默。俄勒冈州民主党参议员罗恩·怀登在一份新报告中表示,通过向科技巨头发出的法律要求,政府据称试图迫使苹果和谷歌交出敏感信息,其中可能包括通知内容——例如锁屏上显示的短信预览,或关于应用活动的更新。怀登的报告反映了科技公司与政府在执法要求方面长期紧张关系的最新例证,这种紧张关系已持续十多年。世界各国政府尤其与科技公司在加密问题上存在争执,加密为用户和企业提供了关键保护,但在某些情况下阻碍了执法部门对通过互联网发送的消息进行调查。
- 文本: 科技巨头"可能严重削弱英国间谍阻止网络危害的能力"。保守党前内政大臣苏埃拉·布雷弗曼表示,硅谷科技巨头的行动可能"严重削弱"英国间谍阻止恋童癖者和诈骗者通过网络造成危害的能力。她点名脸书母公司Meta和苹果,以及它们使用端到端加密等技术,认为这些是对打击数字犯罪尝试的威胁。她声称,在没有"保障措施"的情况下支持这些技术的选择可能"助长甚至促成我们勇敢的执法机构每天处理的一些最恶劣暴行",同时议员们开始考虑修改调查权力法律。《调查权力(修正案)法案》包括使机构更容易检查和保留批量数据集的措施,例如公开可用的在线电话记录,并将允许情报机构使用互联网连接记录来帮助检测目标。我们知道恐怖分子、严重的有组织犯罪分子、诈骗者和网络恋童癖者都在利用暗网和加密空间
- 文本: 卡马戈·科雷亚请求托福利暂停与洗车行动达成的罚款。卡马戈·科雷亚集团已请求迪亚斯·托福利法官暂停其在洗车行动宽大处理协议中同意支付的14亿雷亚尔罚款。该公司请求延长这位部长此前使J&F和奥德布雷希特受益的裁决。与其他公司一样,它声称受到联邦检察院(MPF)成员的不当压力才达成协议。大部分请求基于库里蒂巴特别工作组检察官与前法官塞尔吉奥·莫罗之间的通信内容——卡马戈·科雷亚要求全面访问在"欺骗行动"中查获的这些材料,该行动逮捕了入侵手机的黑客。根据该集团的辩护,这些对话表明高管们并非自由同意协议,因为他们当时是诉讼和审前拘留的目标。
基于FewNERD-fine-supervised微调的numind/NuNER-v1.0模型
这是一个在NER-ORGS数据集上微调的NuNER模型,可用于命名实体识别。NuNER模型使用RoBERTa-base作为骨干编码器,并在NuNER数据集上进行了训练,这是一个由gpt-3.5-turbo-0301合成标注的100万句子的大型多样化数据集。这一预训练阶段生成了高质量的标记嵌入,为在更专业数据集上进行微调提供了良好起点。
模型详情
该模型使用HuggingFace Trainer类作为常规基于BERT的NER任务模型进行微调。
模型标签
实体类型: ORG(组织)
使用方式
直接推理使用
>>> from transformers import pipeline
>>> text = """外国政府可能正在监视你的智能手机通知,参议员表示。华盛顿(CNN)——据美国资深参议员透露,外国政府据称试图通过智能手机用户接收的移动应用通知来监视iPhone和Android用户,而美国政府迫使苹果和谷歌对此保持沉默。通过向科技巨头发出的法律要求,政府据称试图迫使苹果和谷歌交出敏感信息..."""
>>> classifier = pipeline(
"ner",
model="guishe/nuner-v1_orgs",
aggregation_strategy="simple",
)
>>> classifier(text)
[{'entity_group': 'ORG',
'score': 0.9821347,
'word': 'CNN',
'start': 94,
'end': 97},
{'entity_group': 'ORG',
'score': 0.99382174,
'word': ' Apple',
'start': 288,
'end': 293},
{'entity_group': 'ORG',
'score': 0.99351865,
'word': ' Google',
'start': 298,
'end': 304}]
训练过程
训练超参数
训练期间使用以下超参数:
- 学习率: 5e-05
- 训练批次大小: 32
- 评估批次大小: 32
- 随机种子: 42
- 梯度累积步数: 2
- 总训练批次大小: 64
- 优化器: 带betas=(0.9,0.999)和epsilon=1e-08的Adam
- 学习率调度器类型: 线性
- 学习率预热比例: 0.1
- 训练轮数: 4
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
精确率 |
召回率 |
F1值 |
准确率 |
0.0631 |
1.0 |
1710 |
0.0566 |
0.7635 |
0.7952 |
0.7790 |
0.9778 |
0.0572 |
2.0 |
3420 |
0.0580 |
0.7816 |
0.7925 |
0.7870 |
0.9785 |
0.0429 |
3.0 |
5130 |
0.0562 |
0.7869 |
0.8084 |
0.7975 |
0.9790 |
0.0336 |
4.0 |
6840 |
0.0631 |
0.7912 |
0.8045 |
0.7978 |
0.9790 |
框架版本
- Transformers 4.36.0
- Pytorch 2.0.0+cu117
- Datasets 2.18.0
- Tokenizers 0.15.2
引用
BibTeX引用格式
@misc{bogdanov2024nuner,
title={NuNER: 基于LLM标注数据的实体识别编码器预训练},
author={谢尔盖·博格丹诺夫和亚历山大·康斯坦丁等},
year={2024},
eprint={2402.15343},
archivePrefix={arXiv},
primaryClass={cs.CL}
}