language:
XLM-RoBERTa命名实体识别模型卡
基于XLM-RoBERTa微调的命名实体识别模型。
模型详情
模型描述
基于XLM-RoBERTa微调的命名实体识别模型。
- 开发者: 潮旭
- 共享者[可选]: Hugging Face
- 模型类型: 标记分类
- 支持语言(NLP): 英语
- 许可证: 需补充信息
- 相关模型: XLM-RoBERTa
- 更多信息参考:
用途
直接用途
标记分类
下游用途[可选]
可与tner库配合使用。
非适用场景
不得用于故意制造敌对或排斥性环境。
偏见、风险与限制
语言模型的偏见与公平性问题已获广泛研究(参见Sheng等(2021)和Bender等(2021))。模型预测可能包含涉及受保护群体、身份特征及敏感社会职业的有害刻板印象。
建议
用户(包括直接使用者和下游开发者)应充分了解模型的风险、偏见和局限性。需补充具体建议信息。
训练详情
训练数据
NER数据集包含每个拆分集(通常为train/validation/test)的标记序列和标签:
{
'train': {
'tokens': [
['@paulwalk', 'It', "'s", 'the', 'view', 'from', 'where', 'I', "'m", 'living', 'for', 'two', 'weeks', '.', 'Empire', 'State', 'Building', '=', 'ESB', '.', 'Pretty', 'bad', 'storm', 'here', 'last', 'evening', '.'],
['From', 'Green', 'Newsfeed', ':', 'AHFA', 'extends', 'deadline', 'for', 'Sage', 'Award', 'to', 'Nov', '.', '5', 'http://tinyurl.com/24agj38'], ...
],
'tags': [
[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 2, 2, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0],
[0, 0, 0, 0, 3, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], ...
]
},
'validation': ...,
'test': ...,
}
标签映射字典示例如下:
{"O": 0, "B-ORG": 1, "B-MISC": 2, "B-PER": 3, "I-PER": 4, "B-LOC": 5, "I-ORG": 6, "I-MISC": 7, "I-LOC": 8}
训练流程
预处理
需补充信息
速度、规模与耗时
层归一化epsilon值: 1e-05
注意力头数: 12
隐藏层数: 12
词表大小: 250002
评估
测试数据、因素与指标
测试数据
完整数据集列表参见数据集卡片
因素
需补充信息
指标
需补充信息
结果
需补充信息
模型检验
需补充信息
环境影响
碳排放量可使用Lacoste等(2019)提出的机器学习影响计算器估算。
- 硬件类型: 需补充信息
- 使用时长: 需补充信息
- 云服务商: 需补充信息
- 计算区域: 需补充信息
- 碳排放量: 需补充信息
技术规格[可选]
模型架构与目标
需补充信息
计算基础设施
需补充信息
硬件
需补充信息
软件
需补充信息
引用
BibTeX:
@inproceedings{ushio-camacho-collados-2021-ner,
title = "{T}-{NER}: An All-Round Python Library for Transformer-based Named Entity Recognition",
author = "Ushio, Asahi and
Camacho-Collados, Jose",
booktitle = "Proceedings of the 16th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations",
month = apr,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://www.aclweb.org/anthology/2021.eacl-demos.7",
pages = "53--62",
}
术语表[可选]
需补充信息
更多信息[可选]
需补充信息
模型卡作者[可选]
潮旭与Ezi Ozoani及Hugging Face团队合作完成。
模型卡联系方式
需补充信息
快速开始指南
使用以下代码快速启用模型:
点击展开
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("asahi417/tner-xlm-roberta-base-ontonotes5")
model = AutoModelForTokenClassification.from_pretrained("asahi417/tner-xlm-roberta-base-ontonotes5")