库名称: transformers
许可证: apache-2.0
支持语言:
- 南非荷兰语
- 阿姆哈拉语
- 阿拉伯语
- 阿萨姆语
- 阿塞拜疆语
- 白俄罗斯语
- 保加利亚语
- 孟加拉语
- 布列塔尼语
- 波斯尼亚语
- 加泰罗尼亚语
- 捷克语
- 威尔士语
- 丹麦语
- 德语
- 希腊语
- 英语
- 世界语
- 西班牙语
- 爱沙尼亚语
- 巴斯克语
- 波斯语
- 芬兰语
- 法语
- 弗里斯兰语
- 爱尔兰语
- 苏格兰盖尔语
- 加利西亚语
- 古吉拉特语
- 豪萨语
- 希伯来语
- 印地语
- 克罗地亚语
- 匈牙利语
- 亚美尼亚语
- 印尼语
- 冰岛语
- 意大利语
- 日语
- 爪哇语
- 格鲁吉亚语
- 哈萨克语
- 高棉语
- 卡纳达语
- 韩语
- 库尔德语
- 吉尔吉斯语
- 拉丁语
- 老挝语
- 立陶宛语
- 拉脱维亚语
- 马尔加什语
- 马其顿语
- 马拉雅拉姆语
- 蒙古语
- 马拉地语
- 马来语
- 缅甸语
- 尼泊尔语
- 荷兰语
- 挪威语
- 奥罗莫语
- 奥里亚语
- 旁遮普语
- 波兰语
- 普什图语
- 葡萄牙语
- 罗马尼亚语
- 俄语
- 梵语
- 信德语
- 僧伽罗语
- 斯洛伐克语
- 斯洛文尼亚语
- 索马里语
- 阿尔巴尼亚语
- 塞尔维亚语
- 巽他语
- 瑞典语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 泰语
- 他加禄语
- 土耳其语
- 维吾尔语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 科萨语
- 意第绪语
- 中文
基础模型:
- SIRIS-Lab/affilgood-affilxlm
标签:
- 机构关系
- 命名实体识别
- 科研
AffilGood-NER-多语言版
概述
点击展开
- 模型类型: 语言模型
- 架构: XLM-RoBERTa-base
- 语言: 多语言
- 许可证: Apache 2.0
- 任务: 命名实体识别
- 数据: AffilGood-NER
- 附加资源:
模型描述
affilgood-NER-multilingual的多语言版本是一个用于识别科研论文和项目中原始机构关系字符串中命名实体的命名实体识别(NER)模型,基于AffilXLM模型微调而来。AffilXLM是一个XLM-RoBERTa基础模型,在从OpenAlex收集的中等规模原始机构关系字符串语料库上进一步进行了MLM任务的预训练。
该模型使用包含5,266条文本的数据集进行训练,覆盖了多语言原始机构关系字符串中的7种主要实体类型。
在分析了来自多个国家和语言的数百条机构关系后,我们定义了七种实体类型:子机构
、机构
、城市
、国家
、地址
、邮政编码
和地区
,详细的[标注指南在此]。
识别命名实体(机构名称、城市、国家)不仅能更有效地与外部机构注册表链接,还可以在机构的地理定位中发挥关键作用,并有助于识别机构及其在机构层级中的位置——特别是那些未列在外部数据库中的机构。通过NER模型自动提取的信息还可以促进知识图谱的构建,并支持手动管理注册表的开发。
预期用途
该模型适用于多语言原始机构关系字符串,因为该模型基于XLM-RoBERTa预训练,NER和进一步的预训练语料库均为多语言。
使用方法
from transformers import pipeline
affilgood_ner_pipeline = pipeline("ner", model=model, tokenizer=tokenizer, aggregation_strategy="simple")
sentence = "CSIC, Global ecology Unit CREAF-CSIC-UAB, Bellaterra 08193, Catalonia, Spain."
output = affilgood_ner_pipeline(sentence)
print(output)
局限性与偏差
尚未采取措施评估模型中嵌入的偏差和毒性。
NER数据集包含从OpenAlex获取的5,266条原始机构关系字符串。
为确保全面覆盖和多样性,数据集包括了来自所有可用国家和地区的多语言样本。
为了使模型能够识别各种机构关系字符串格式,数据集中包含了多种结构、不同的主机构和子机构分组方式以及不同的机构名称分隔方法。我们还包含了格式错误的机构关系以及从PDF文件中自动提取时包含错误的样本。
训练
我们使用AffilGood-NER数据集进行训练和评估。
我们使用IOB标注模式对适配和基础模型进行了令牌分类的微调。
我们训练模型25个epoch,使用数据集的80%进行训练,10%用于验证,10%用于测试。
训练使用的超参数如下:
- 学习率: 2e-5
- 学习率衰减: 线性
- 权重衰减: 0.01
- 预热比例: 0.06
- 批量大小: 128
- 训练步数: 25k步
- Adam ε: 1e-6
- Adam β1: 0.9
- Adam β2: 0.999
选择性能最佳的epoch(考虑严格匹配标准的宏观平均F1)用于模型选择。
评估
模型性能在数据集的10%上进行了评估。
类别 |
RoBERTa |
XLM |
AffilRoBERTa |
AffilXLM (本模型) |
全部 |
.910 |
.915 |
.920 |
.925 |
----- |
------ |
------ |
------ |
---------- |
机构 |
.869 |
.886 |
.879 |
.906 |
子机构 |
.898 |
.890 |
.911 |
.892 |
城市 |
.936 |
.941 |
.950 |
.958 |
国家 |
.971 |
.973 |
.980 |
.970 |
地区 |
.870 |
.876 |
.874 |
.882 |
邮政编码 |
.975 |
.975 |
.981 |
.966 |
地址 |
.804 |
.811 |
.794 |
.869 |
上述所有数字均表示严格匹配时的F1分数,即实体的边界和类型均匹配。
附加信息
作者
- SIRIS Lab, SIRIS Academic研究部, 西班牙巴塞罗那
- LaSTUS Lab, TALN Group, 庞培法布拉大学, 西班牙巴塞罗那
- 波兰科学院计算机科学研究所, 波兰华沙
联系方式
如需更多信息,请发送电子邮件至nicolau.duransilva@sirisacademic.com或info@sirisacademic.com。
许可证
本作品采用Apache License, Version 2.0分发。
资助
本工作部分由以下机构资助和支持:
- 加泰罗尼亚研究与大学部的工业博士计划,由Departament de Recerca i Universitats de la Generalitat de Catalunya (ajuts SGR-Cat 2021)资助,
- Maria de Maeztu卓越计划CEX2021-001195-M,由MCIN/AEI /10.13039/501100011033资助
- 欧盟HORIZON SciLake (资助协议101058573)
- 欧盟HORIZON ERINIA (资助协议101060930)
引用
@inproceedings{duran-silva-etal-2024-affilgood,
title = "{A}ffil{G}ood: Building reliable institution name disambiguation tools to improve scientific literature analysis",
author = "Duran-Silva, Nicolau and
Accuosto, Pablo and
Przyby{\l}a, Piotr and
Saggion, Horacio",
editor = "Ghosal, Tirthankar and
Singh, Amanpreet and
Waard, Anita and
Mayr, Philipp and
Naik, Aakanksha and
Weller, Orion and
Lee, Yoonjoo and
Shen, Shannon and
Qin, Yanxia",
booktitle = "Proceedings of the Fourth Workshop on Scholarly Document Processing (SDP 2024)",
month = aug,
year = "2024",
address = "Bangkok, Thailand",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2024.sdp-1.13",
pages = "135--144",
}
免责声明
点击展开
本仓库发布的模型旨在用于通用目的,并根据Apache v2.0许可证向第三方提供。
请注意,模型可能存在偏差和/或其他不良失真。
当第三方部署或提供基于此模型(或基于此模型的系统)的系统和服务给其他方使用,或成为模型本身的用户时,他们应注意,他们有责任减轻使用过程中产生的风险,并无论如何遵守适用的法规,包括关于人工智能使用的法规。
模型的所有者和创建者不对第三方使用产生的任何结果负责。