许可证: apache-2.0
标签:
- 标记分类
数据集:
- wikiann
评估指标:
- 精确率
- 召回率
- F1值
- 准确率
模型索引:
- 名称: distilroberta-base-ner-wikiann
结果:
- 任务:
类型: 标记分类
名称: 标记分类
数据集:
名称: wikiann
类型: wikiann
评估指标:
- 类型: 精确率
值: 0.8331921416757433
名称: 精确率
- 类型: 召回率
值: 0.84243586083126
名称: 召回率
- 类型: F1值
值: 0.8377885044416501
名称: F1值
- 类型: 准确率
值: 0.91930707459758
名称: 准确率
- 任务:
类型: 标记分类
名称: 标记分类
数据集:
名称: wikiann
类型: wikiann
配置: en
分割: test
评估指标:
- 类型: 准确率
值: 0.9200373733433721
名称: 准确率
已验证: true
验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNGFmMTNkZDYwMDllNjE5ZTVjYzYwYTQyMDFjYzNkYTkxZmVmOTNkOTFlOTU4MmM2MmFlMWQzMTcwZGViOTA3ZCIsInZlcnNpb24iOjF9.pOwPcBmA7XJdq9QgCNoCivTsu0WfsCnvRtzObDrqhFtrO2PjLNf9tmlQeahGcBGFo6yIHvhndBYwf__lN-4nBg
- 类型: 精确率
值: 0.9258482820953792
名称: 精确率
已验证: true
验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiMzFhNGJlMzk0N2JmYmU3YjAxZjJjNGFjZjZjOTJhODc3MjQyODMzYzE2Y2Y4NWQ4YThhMjg3NWI1MGRmODczMiIsInZlcnNpb24iOjF9.eVTQJqXeGY0XZaGURXBrT8sjMl7O_SxuFB4NS7C6jbpr46MMZdusvzkmndOIrGjReB2vB3sAmpcT0hydpqRkDg
- 类型: 召回率
值: 0.9347545055892119
名称: 召回率
已验证: true
验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiN2Y5ZGIzM2JlOWNjZGUzOWU5MGIwOTFiODM4NmU3NGQ3ZmUxYzM4ZmYxNjIwOTE0ZWFiYWJhMzk4NDg4ZjI3MSIsInZlcnNpb24iOjF9.tzl3gTEDFuj7kpGsERkQzXfh7B0Qwao31VcXKF1rSvf3ulVgXsU-vTB2oZiGr3w5AySr_80J0pIpSpvGzfhNAQ
- 类型: F1值
值: 0.9302800779500893
名称: F1值
已验证: true
验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiYjY5MDM2ZWQ1MzJmNDFhMGFmZmQ1MzM0NmJmOTVmYTM1OWZmNzc4YWI4ZWUwMTFlMTQ5MTJmYWRhNmVmZTUyZCIsInZlcnNpb24iOjF9.zMUq4ZGLfu0eQF7lHNkaf6LByypIevygVGLpBA3jW80OUy5VeZDK7d6q0RV_N4SO5gTkLEjoDvSqLDcaw-9VBw
- 类型: 损失
值: 0.3007512390613556
名称: 损失
已验证: true
验证令牌: eyJhbGciOiJFZERTQSIsInR5cCI6IkpXVCJ9.eyJoYXNoIjoiNzI5YmIxODFkN2NkYzJkZDgyZTc4MDhlMDkyMzM3NWFiZWQ1MmUzMDA1MGYyM2RlNzVlNTIwNDcwNTFmNjYwMSIsInZlcnNpb24iOjF9.D8vx5YhoNHY4CdRXEt3rL95odR2kZJ1e_c34HD28xX9YeWKIjjt4E0FSz6Xw4ufJd9UlCnQ_u4VPFTYI-RXlCQ
distilroberta-base-ner-wikiann
此模型是基于distilroberta-base在wikiann数据集上微调的版本。
评估F1分数: 83,78
测试F1分数: 83,76
模型使用
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
tokenizer = AutoTokenizer.from_pretrained("philschmid/distilroberta-base-ner-wikiann")
model = AutoModelForTokenClassification.from_pretrained("philschmid/distilroberta-base-ner-wikiann")
nlp = pipeline("ner", model=model, tokenizer=tokenizer, grouped_entities=True)
example = "My name is Philipp and live in Germany"
nlp(example)
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率: 4.9086903597787154e-05
- 训练批次大小: 32
- 评估批次大小: 16
- 随机种子: 42
- 优化器: Adam,参数beta=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型: 线性
- 训练轮数: 5.0
- 混合精度训练: 原生AMP
训练结果
在评估集上达到以下结果:
- 损失: 0.3156
- 精确率: 0.8332
- 召回率: 0.8424
- F1值: 0.8378
- 准确率: 0.9193
在测试集上达到以下结果:
- 损失: 0.3023
- 精确率: 0.8301
- 召回率: 0.8452
- F1值: 0.8376
- 准确率: 0.92
框架版本
- Transformers 4.6.1
- Pytorch 1.8.1+cu101
- Datasets 1.6.2
- Tokenizers 0.10.2