库名称: transformers
语言:
- 多语言
- 南非荷兰语
- 阿姆哈拉语
- 阿拉伯语
- 阿萨姆语
- 阿塞拜疆语
- 白俄罗斯语
- 保加利亚语
- 班巴拉语
- 孟加拉语
- 布列塔尼语
- 波斯尼亚语
- 加泰罗尼亚语
- 捷克语
- 威尔士语
- 丹麦语
- 德语
- 希腊语
- 英语
- 世界语
- 西班牙语
- 爱沙尼亚语
- 巴斯克语
- 波斯语
- 富拉语
- 芬兰语
- 法语
- 弗里斯兰语
- 爱尔兰语
- 苏格兰盖尔语
- 加利西亚语
- 瓜拉尼语
- 古吉拉特语
- 豪萨语
- 希伯来语
- 印地语
- 克罗地亚语
- 海地克里奥尔语
- 匈牙利语
- 亚美尼亚语
- 印尼语
- 伊博语
- 冰岛语
- 意大利语
- 日语
- 爪哇语
- 格鲁吉亚语
- 刚果语
- 哈萨克语
- 高棉语
- 卡纳达语
- 韩语
- 库尔德语
- 吉尔吉斯语
- 拉丁语
- 卢干达语
- 林加拉语
- 老挝语
- 立陶宛语
- 拉脱维亚语
- 马尔加什语
- 马其顿语
- 马拉雅拉姆语
- 蒙古语
- 马拉地语
- 马来语
- 缅甸语
- 尼泊尔语
- 荷兰语
- 挪威语
- 奥罗莫语
- 奥里亚语
- 旁遮普语
- 波兰语
- 普什图语
- 葡萄牙语
- 克丘亚语
- 罗马尼亚语
- 俄语
- 梵语
- 信德语
- 僧伽罗语
- 斯洛伐克语
- 斯洛文尼亚语
- 索马里语
- 阿尔巴尼亚语
- 塞尔维亚语
- 斯瓦蒂语
- 巽他语
- 瑞典语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 泰语
- 提格里尼亚语
- 他加禄语
- 茨瓦纳语
- 土耳其语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 沃洛夫语
- 科萨语
- 约鲁巴语
- 中文
许可证: agpl-3.0
标签:
- 检索
- 实体检索
- 命名实体消歧
- 实体消歧
- 命名实体链接
- 实体链接
- 文本到文本生成
模型卡: impresso-project/nel-mgenre-multilingual
Impresso多语言命名实体链接(NEL)模型基于mGENRE(多语言生成式实体检索),由De Cao等人提出,是一种基于mBART的序列到序列架构,用于实体消歧。它采用约束生成技术输出映射到Wikidata/QID的实体名称。
该模型针对历史文本进行了适配,并在HIPE-2022数据集上进行了微调,该数据集包含多种历史文档类型和语言。
模型详情
模型描述
模型架构
- 架构: 基于mBART的序列到序列模型,采用约束束搜索
训练详情
训练数据
模型在以下数据集上进行训练:
数据集别名 |
说明文档 |
文档类型 |
语言 |
适用任务 |
项目 |
许可证 |
ajmc |
链接 |
古典评注 |
德语, 法语, 英语 |
粗粒度NER, 细粒度NER, 实体链接 |
AjMC |
 |
hipe2020 |
链接 |
历史报纸 |
德语, 法语, 英语 |
粗粒度NER, 细粒度NER, 实体链接 |
CLEF-HIPE-2020 |
 |
topres19th |
链接 |
历史报纸 |
英语 |
粗粒度NER, 实体链接 |
Living with Machines |
 |
newseye |
链接 |
历史报纸 |
德语, 芬兰语, 法语, 瑞典语 |
粗粒度NER, 细粒度NER, 实体链接 |
NewsEye |
 |
sonar |
链接 |
历史报纸 |
德语 |
粗粒度NER, 实体链接 |
SoNAR |
 |
使用方法
from transformers import AutoTokenizer, pipeline
NEL_MODEL_NAME = "impresso-project/nel-mgenre-multilingual"
nel_tokenizer = AutoTokenizer.from_pretrained(NEL_MODEL_NAME)
nel_pipeline = pipeline("generic-nel", model=NEL_MODEL_NAME,
tokenizer=nel_tokenizer,
trust_remote_code=True,
device='cpu')
sentence = "Le 0ctobre 1894, [START] Dreyfvs [END] est arrêté à Paris, accusé d'espionnage pour l'Allemagne — un événement qui déch1ra la société fr4nçaise pendant des années."
print(nel_pipeline(sentence))
输出格式
[
{
'surface': 'Dreyfvs',
'wkd_id': 'Q171826',
'wkpedia_pagename': 'Alfred Dreyfus',
'wkpedia_url': 'https://fr.wikipedia.org/wiki/Alfred_Dreyfus',
'type': 'UNK',
'confidence_nel': 99.98,
'lOffset': 24,
'rOffset': 33}]
实体类型为UNK
是因为模型未在实体类型上进行训练。confidence_nel
分数表示模型对预测结果的置信度。
应用场景
- 在OCR噪声环境下的实体消歧
- 将历史名称链接到现代Wikidata实体
- 辅助从历史档案中提取事件和生成传记
局限性
- 对分词和格式错误的跨度敏感
- 在非Wikidata实体或高度模糊的上下文中准确性下降
- 专注于历史实体提及——在现代文本上的表现可能有所不同
环境影响
- 硬件: 1块A100(80GB)用于微调
- 训练时间: ~12小时
- 估计二氧化碳排放量: ~2.3千克二氧化碳当量
联系方式