🚀 roberta-base-finetuned-ner
本模型是在 PLOD-filtered 数据集上对 roberta-base 进行微调后的版本。它能有效解决令牌分类任务,在评估集上展现出了较高的性能,为相关自然语言处理任务提供了有力支持。
✨ 主要特性
- 基于预训练模型:以
roberta-base
为基础模型进行微调,充分利用了预训练模型的语言理解能力。
- 多指标表现优异:在精度、召回率、F1值和准确率等多个评估指标上都取得了较高的分数。
- 适用于特定数据集:在
surrey-nlp/PLOD-filtered
数据集上进行训练和评估,可用于缩写检测等序列标注任务。
📦 安装指南
文档未提供安装步骤,故跳过此章节。
💻 使用示例
文档未提供代码示例,故跳过此章节。
📚 详细文档
模型描述
RoBERTa 是一种基于自监督学习方式,在大量英文语料库上预训练的 Transformer 模型。这意味着它仅在原始文本上进行预训练,无需人工标注(因此可以使用大量公开可用的数据),并通过自动流程从这些文本中生成输入和标签。
更确切地说,它是通过掩码语言模型(Masked language modeling,MLM)目标进行预训练的。对于一个句子,模型会随机掩码输入中 15% 的单词,然后将整个掩码后的句子输入模型,让模型预测被掩码的单词。这与传统的循环神经网络(RNNs)不同,RNNs 通常是逐个处理单词,也与像 GPT 这样的自回归模型不同,自回归模型会在内部掩码未来的令牌。这种方式使模型能够学习句子的双向表示。
通过这种方式,模型学习到了英语语言的内部表示,可用于提取对下游任务有用的特征。例如,如果您有一个带标签句子的数据集,就可以使用 BERT 模型生成的特征作为输入,训练一个标准的分类器。
预期用途与限制
更多信息待补充。
训练和评估数据
该模型使用 PLOD-Filtered 数据集进行微调。此数据集用于模型的训练和评估,PLOD 数据集于 2022 年 LREC 会议上发布,可帮助构建用于缩写检测任务的序列标注模型。
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率:2e - 05
- 训练批次大小:32
- 评估批次大小:8
- 随机种子:42
- 优化器:Adam,β1 = 0.9,β2 = 0.999,ε = 1e - 08
- 学习率调度器类型:线性
- 训练轮数:6
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
精度 |
召回率 |
F1值 |
准确率 |
0.1179 |
1.99 |
7000 |
0.1130 |
0.9602 |
0.9517 |
0.9559 |
0.9522 |
0.0878 |
3.98 |
14000 |
0.1106 |
0.9647 |
0.9564 |
0.9606 |
0.9567 |
0.0724 |
5.96 |
21000 |
0.1149 |
0.9646 |
0.9582 |
0.9614 |
0.9576 |
框架版本
- Transformers 4.18.0
- Pytorch 1.10.1 + cu111
- Datasets 2.1.0
- Tokenizers 0.12.1
🔧 技术细节
模型信息
属性 |
详情 |
模型类型 |
基于 roberta-base 微调的令牌分类模型 |
训练数据 |
surrey-nlp/PLOD-filtered 数据集 |
评估指标
该模型在评估集上取得了以下结果:
- 损失:0.1148
- 精度:0.9645
- 召回率:0.9583
- F1值:0.9614
- 准确率:0.9576
📄 许可证
本模型采用 MIT 许可证。
模型创建者
- Leonardo Zilio
- Hadeel Saadany
- Prashant Sharma
- Diptesh Kanojia
- Constantin Orasan
模型索引
- 名称:roberta-base-finetuned-ner
- 结果:
- 任务:
- 数据集:
- 名称:surrey-nlp/PLOD-filtered
- 类型:令牌分类
- 参数:PLODfiltered
- 指标:
- 类型:精度
- 值:0.9644756447594547
- 名称:精度
- 类型:召回率
- 值:0.9583209148378798
- 名称:召回率
- 类型:F1值
- 值:0.9613884293804785
- 名称:F1值
- 类型:准确率
- 值:0.9575894768204436
- 名称:准确率
模型小部件示例
- 文本:Light dissolved inorganic carbon (DIC) resulting from the oxidation of hydrocarbons.
- 文本:RAFs are plotted for a selection of neurons in the dorsal zone (DZ) of auditory cortex in Figure 1.
- 文本:Images were acquired using a GE 3.0T MRI scanner with an upgrade for echo - planar imaging (EPI).