语言: 英语
许可证: Apache-2.0
标签:
- 训练生成
数据集:
- conll2003
评估指标:
- 精确率
- 召回率
- F1值
- 准确率
示例输入:
- 文本: "我的名字是Scott,我住在哥伦布。"
- 文本: "我是Scott,从纽约州布法罗市打来电话。我想对联合航空公司提出投诉。"
- 文本: "苹果公司由史蒂夫·乔布斯、史蒂夫·沃兹尼亚克和罗纳德·韦恩于1976年创立。"
基础模型: bert-large-uncased
模型索引:
- 名称: bert-large-uncased-finetuned-ner
结果:
- 任务:
类型: 标记分类
名称: 标记分类
数据集:
名称: conll2003
类型: conll2003
参数: conll2003
指标:
- 类型: 精确率
值: 0.9504719600222099
名称: 精确率
- 类型: 召回率
值: 0.9574896520863632
名称: 召回率
- 类型: F1值
值: 0.9539679001337494
名称: F1值
- 类型: 准确率
值: 0.9885618059637473
名称: 准确率
bert-large-uncased-finetuned-ner
该模型是基于bert-large-uncased在conll2003数据集上微调的版本。
在评估集上取得了以下结果:
- 损失: 0.0778
- 精确率: 0.9505
- 召回率: 0.9575
- F1值: 0.9540
- 准确率: 0.9886
模型描述
需补充更多信息
局限性与偏差
该模型的局限性在于其训练数据集仅包含特定时间段内带有实体标注的新闻文章。这可能无法很好地泛化到不同领域的所有用例。此外,模型偶尔会将子词标记标注为实体,可能需要对结果进行后处理以处理这些情况。
使用方法
您可以使用Transformers的pipeline进行命名实体识别(NER)。
from transformers import pipeline
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("Jorgeutd/bert-large-uncased-finetuned-ner")
model = AutoModelForTokenClassification.from_pretrained("Jorgeutd/bert-large-uncased-finetuned-ner")
nlp = pipeline("ner", model=model, tokenizer=tokenizer)
example = "我的名字是Scott,我住在俄亥俄州"
ner_results = nlp(example)
print(ner_results)
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率: 2e-05
- 训练批次大小: 16
- 评估批次大小: 64
- 随机种子: 42
- 优化器: Adam,参数为betas=(0.9,0.999)和epsilon=1e-08
- 学习率调度器类型: 线性
- 训练轮数: 10
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
精确率 |
召回率 |
F1值 |
准确率 |
0.1997 |
1.0 |
878 |
0.0576 |
0.9316 |
0.9257 |
0.9286 |
0.9837 |
0.04 |
2.0 |
1756 |
0.0490 |
0.9400 |
0.9513 |
0.9456 |
0.9870 |
0.0199 |
3.0 |
2634 |
0.0557 |
0.9436 |
0.9540 |
0.9488 |
0.9879 |
0.0112 |
4.0 |
3512 |
0.0602 |
0.9443 |
0.9569 |
0.9506 |
0.9881 |
0.0068 |
5.0 |
4390 |
0.0631 |
0.9451 |
0.9589 |
0.9520 |
0.9882 |
0.0044 |
6.0 |
5268 |
0.0638 |
0.9510 |
0.9567 |
0.9538 |
0.9885 |
0.003 |
7.0 |
6146 |
0.0722 |
0.9495 |
0.9560 |
0.9527 |
0.9885 |
0.0016 |
8.0 |
7024 |
0.0762 |
0.9491 |
0.9595 |
0.9543 |
0.9887 |
0.0018 |
9.0 |
7902 |
0.0769 |
0.9496 |
0.9542 |
0.9519 |
0.9883 |
0.0009 |
10.0 |
8780 |
0.0778 |
0.9505 |
0.9575 |
0.9540 |
0.9886 |
框架版本
- Transformers 4.16.2
- PyTorch 1.8.1+cu111
- Datasets 1.18.3
- Tokenizers 0.11.0