这是一个基于roberta-large的SpanMarker模型,专门用于细粒度命名实体识别任务,在FewNERD数据集上训练得到。
下载量 53
发布时间 : 3/30/2023
模型介绍
内容详情
替代品
模型简介
该模型采用SpanMarker架构,结合roberta-large编码器,能够识别文本中的各类命名实体,适用于信息提取等场景。
模型特点
细粒度实体识别
支持识别66种细粒度实体类型,涵盖人物、地点、组织等多个领域
高性能基础模型
基于roberta-large编码器,提供强大的语义理解能力
SpanMarker架构
采用先进的SpanMarker方法,有效处理实体边界识别问题
模型能力
命名实体识别
细粒度实体分类
文本信息提取
使用案例
信息提取
新闻人物识别
从新闻文本中识别提及的人物及其类型
可准确识别如'阿梅莉亚·埃尔哈特'等人物实体
地理信息提取
识别文本中的地点、建筑等地理实体
可识别'巴黎'、'大西洋'等地理实体
内容分析
影视作品分析
识别文本中提到的电影、电视节目等
可准确识别如'潜龙轰天'等影视作品
语言:
- 英文 许可证: cc-by-sa-4.0 库名称: span-marker 标签:
- span-marker
- 标记分类
- 命名实体识别
- 从span_marker_trainer生成 数据集:
- DFKI-SLT/few-nerd 指标:
- F1值
- 召回率
- 精确率 管道标签: 标记分类 小部件:
- 文本: 阿梅莉亚·埃尔哈特驾驶她的单引擎洛克希德维加5B飞机飞越大西洋到达巴黎。 示例标题: 阿梅莉亚·埃尔哈特
- 文本: 列奥纳多·达·芬奇根据意大利贵族女性丽莎·德尔·乔康多创作了《蒙娜丽莎》。 示例标题: 列奥纳多·达·芬奇
- 文本: 史蒂文·西格尔主演的电影《潜龙轰天》(与汤米·李·琼斯共同主演)大部分场景是在停泊于莫比尔湾战列舰纪念公园并对公众开放的美国阿拉巴马号战列舰上拍摄的。 示例标题: 潜龙轰天 基础模型: roberta-large 模型索引:
- 名称: 汤姆·阿尔森在细粒度监督FewNERD上使用roberta-large的SpanMarker模型
结果:
- 任务:
类型: 标记分类
名称: 命名实体识别
数据集:
名称: 细粒度监督FewNERD
类型: DFKI-SLT/few-nerd
配置: supervised
分割: 测试集
修订版本: 2e3e727c63604fbfa2ff4cc5055359c84fe5ef2c
指标:
- 类型: F1值 值: 0.7103 名称: F1
- 类型: 精确率 值: 0.7136 名称: 精确率
- 类型: 召回率 值: 0.707 名称: 召回率
- 任务:
类型: 标记分类
名称: 命名实体识别
数据集:
名称: 细粒度监督FewNERD
类型: DFKI-SLT/few-nerd
配置: supervised
分割: 测试集
修订版本: 2e3e727c63604fbfa2ff4cc5055359c84fe5ef2c
指标:
在FewNERD上使用roberta-large的SpanMarker模型
这是一个在FewNERD数据集上训练的SpanMarker模型,可用于命名实体识别。该SpanMarker模型使用roberta-large作为基础编码器。训练脚本参见train.py。
模型详情
模型描述
- 模型类型: SpanMarker
- 编码器: roberta-large
- 最大序列长度: 256个标记
- 最大实体长度: 8个单词
- 训练数据集: FewNERD
- 语言: 英文
- 许可证: cc-by-sa-4.0
模型来源
- 代码库: GitHub上的SpanMarker
- 论文: 用于命名实体识别的SpanMarker
模型标签
标签 | 示例 |
---|---|
艺术-广播节目 | "Street Cents", "The Gale Storm Show : Oh , Susanna", "Corazones" |
艺术-电影 | "Shawshank Redemption", "Bosch", "L'Atlantide" |
艺术-音乐 | "Hollywood Studio Symphony", "Champion Lover", "Atkinson , Danko and Ford ( with Brockie and Hilton )" |
艺术-其他 | "Aphrodite of Milos", "Venus de Milo", "The Today Show" |
艺术-绘画 | "Production/Reproduction", "Cofiwch Dryweryn", "Touit" |
艺术-书面作品 | "Imelda de ' Lambertazzi", "Time", "The Seven Year Itch" |
建筑-机场 | "Sheremetyevo International Airport", "Newark Liberty International Airport", "Luton Airport" |
建筑-医院 | "Memorial Sloan-Kettering Cancer Center", "Hokkaido University Hospital", "Yeungnam University Hospital" |
建筑-酒店 | "Flamingo Hotel", "The Standard Hotel", "Radisson Blu Sea Plaza Hotel" |
建筑-图书馆 | "British Library", "Berlin State Library", "Bayerische Staatsbibliothek" |
建筑-其他 | "Alpha Recording Studios", "Henry Ford Museum", "Communiplex" |
建筑-餐厅 | "Fatburger", "Carnegie Deli", "Trumbull" |
建筑-体育设施 | "Sports Center", "Glenn Warner Soccer Facility", "Boston Garden" |
建筑-剧院 | "Pittsburgh Civic Light Opera", "National Paris Opera", "Sanders Theatre" |
事件-攻击/战役/战争/军事冲突 | "Jurist", "Vietnam War", "Easter Offensive" |
事件-灾难 | "the 1912 North Mount Lyell Disaster", "1990s North Korean famine", "1693 Sicily earthquake" |
事件-选举 | "March 1898 elections", "Elections to the European Parliament", "1982 Mitcham and Morden by-election" |
事件-其他 | "Eastwood Scoring Stage", "Union for a Popular Movement", "Masaryk Democratic Movement" |
事件-抗议 | "Russian Revolution", "French Revolution", "Iranian Constitutional Revolution" |
事件-体育赛事 | "World Cup", "Stanley Cup", "National Champions" |
地点-国家/地区 | "Croatian", "the Republic of Croatia", "Mediterranean Basin" |
地点-水体 | "Arthur Kill", "Norfolk coast", "Atatürk Dam Lake" |
地点-岛屿 | "new Samsat district", "Staten Island", "Laccadives" |
地点-山脉 | "Ruweisat Ridge", "Salamander Glacier", "Miteirya Ridge" |
地点-其他 | "Northern City Line", "Victoria line", "Cartuther" |
地点-公园 | "Gramercy Park", "Shenandoah National Park", "Painted Desert Community Complex Historic District" |
地点-道路/铁路/高速公路/交通 | "NJT", "Friern Barnet Road", "Newark-Elizabeth Rail Link" |
组织-公司 | "Church 's Chicken", "Dixy Chicken", "Texas Chicken" |
组织-教育 | "MIT", "Barnard College", "Belfast Royal Academy and the Ulster College of Physical Education" |
组织-政府/政府机构 | "Supreme Court", "Congregazione dei Nobili", "Diet" |
组织-媒体/报纸 | "Al Jazeera", "Clash", "TimeOut Melbourne" |
组织-其他 | "IAEA", "4th Army", "Defence Sector C" |
组织-政党 | "Al Wafa ' Islamic", "Kenseitō", "Shimpotō" |
组织-宗教 | "Jewish", "UPCUSA", "Christian" |
组织-演出组织 | "Mr. Mister", "Lizzy", "Bochumer Symphoniker" |
组织-体育联盟 | "China League One", "NHL", "First Division" |
组织-运动队 | "Arsenal", "Luc Alphand Aventures", "Tottenham" |
其他-天文事物 | "Algol", "`` Caput Larvae ''", "Zodiac" |
其他-奖项 | "GCON", "Grand Commander of the Order of the Niger", "Order of the Republic of Guinea and Nigeria" |
其他-生物事物 | "BAR", "N-terminal lipid", "Amphiphysin" |
其他-化学物质 | "carbon dioxide", "sulfur", "uranium" |
其他-货币 | "$", "Travancore Rupee", "lac crore" |
其他-疾病 | "bladder cancer", "French Dysentery Epidemic of 1779", "hypothyroidism" |
其他-教育程度 | "Bachelor", "Master", "BSc ( Hons ) in physics" |
其他-神 | "El", "Fujin", "Raijin" |
其他-语言 | "Latin", "Breton-speaking", "English" |
其他-法律 | "Leahy–Smith America Invents Act ( AIA", "Thirty Years ' Peace", "United States Freedom Support Act" |
其他-生物 | "monkeys", "patchouli", "insects" |
其他-医疗 | "Pediatrics", "pediatrician", "amitriptyline" |
人物-演员 | "Tchéky Karyo", "Ellaline Terriss", "Edmund Payne" |
人物-艺术家/作家 | "George Axelrod", "Gaetano Donizett", "Hicks" |
人物-运动员 | "Jaguar", "Tozawa", "Neville" |
人物-导演 | "Bob Swaim", "Frank Darabont", "Richard Quine" |
人物-其他 | "Richard Benson", "Holden", "Campbell" |
人物-政治家 | "Emeric", "Rivière", "William" |
人物-学者 | "Stalmine", "Stedman", "Wurdack" |
人物-士兵 | "Helmuth Weidling", "Joachim Ziegler", "Krukenberg" |
产品-飞机 | "Luton", "Spey-equipped FGR.2s", "EC135T2 CPDS" |
产品-汽车 | "100EX", "Phantom", "Corvettes - GT1 C6R" |
产品-食品 | "red grape", "yakiniku", "V. labrusca" |
产品-游戏 | "Airforce Delta", "Splinter Cell", "Hardcore RPG" |
产品-其他 | "Fairbottom Bobs", "X11", "PDP-1" |
产品-船只 | "HMS `` Chinkara ''", "Congress", "Essex" |
产品-软件 | "Wikipedia", "Apdf", "AmiPDF" |
产品-火车 | "Royal Scots Grey", "High Speed Trains", "55022" |
产品-武器 | "AR-15 's", "ZU-23-2M Wróbel", "ZU-23-2MR Wróbel II" |
用途
直接使用
from span_marker import SpanMarkerModel
# 从🤗 Hub下载
model = SpanMarkerModel.from_pretrained("tomaarsen/span-marker-roberta-large-fewnerd-fine-super")
# 运行推理
entities = model.predict("Most of the Steven Seagal movie ``Under Siege`` (co-starring Tommy Lee Jones) was filmed aboard the Battleship USS Alabama, which is docked on Mobile Bay at Battleship Memorial Park and open to the public.")
下游使用
您可以在自己的数据集上微调此模型。
点击展开
from span_marker import SpanMarkerModel, Trainer
# 从🤗 Hub下载
model = SpanMarkerModel.from_pretrained("tomaarsen/span-marker-roberta-large-fewnerd-fine-super")
# 指定包含"tokens"和"ner_tag"列的数据集
dataset = load_dataset("conll2003") # 例如CoNLL2003
# 使用预训练模型和数据集初始化Trainer
trainer = Trainer(
model=model,
train_dataset=dataset["train"],
eval_dataset=dataset["validation"],
)
trainer.train()
trainer.save_model("tomaarsen/span-marker-roberta-large-fewnerd-fine-super-finetuned")
训练详情
训练集指标
训练集 | 最小值 | 中位数 | 最大值 |
---|---|---|---|
句子长度 | 1 | 24.4945 | 267 |
每句实体数 | 0 | 2.5832 | 88 |
训练超参数
- 学习率: 1e-05
- 训练批次大小: 8
- 评估批次大小: 8
- 随机种子: 42
- 优化器: Adam,参数beta=(0.9,0.999),epsilon=1e-08
- 学习率调度器类型: 线性
- 学习率调度器预热比例: 0.1
- 训练轮数: 3
训练硬件
- 云端训练: 否
- GPU型号: 1 x NVIDIA GeForce RTX 3090
- CPU型号: 第13代Intel(R) Core(TM) i7-13700K
- 内存大小: 31.78 GB
框架版本
- Python: 3.9.16
- SpanMarker: 1.3.1.dev
- Transformers: 4.29.2
- PyTorch: 2.0.1+cu118
- Datasets: 2.14.3
- Tokenizers: 0.13.2
Indonesian Roberta Base Posp Tagger
MIT
这是一个基于印尼语RoBERTa模型微调的词性标注模型,在indonlu数据集上训练,用于印尼语文本的词性标注任务。
序列标注
Transformers

其他
I
w11wo
2.2M
7
Bert Base NER
MIT
基于BERT微调的命名实体识别模型,可识别四类实体:地点(LOC)、组织机构(ORG)、人名(PER)和杂项(MISC)
序列标注
英语
B
dslim
1.8M
592
Deid Roberta I2b2
MIT
该模型是基于RoBERTa微调的序列标注模型,用于识别和移除医疗记录中的受保护健康信息(PHI/PII)。
序列标注
Transformers

支持多种语言
D
obi
1.1M
33
Ner English Fast
Flair自带的英文快速4类命名实体识别模型,基于Flair嵌入和LSTM-CRF架构,在CoNLL-03数据集上达到92.92的F1分数。
序列标注
PyTorch
英语
N
flair
978.01k
24
French Camembert Postag Model
基于Camembert-base的法语词性标注模型,使用free-french-treebank数据集训练
序列标注
Transformers

法语
F
gilf
950.03k
9
Xlm Roberta Large Ner Spanish
基于XLM-Roberta-large架构微调的西班牙语命名实体识别模型,在CoNLL-2002数据集上表现优异。
序列标注
Transformers

西班牙语
X
MMG
767.35k
29
Nusabert Ner V1.3
MIT
基于NusaBert-v1.3在印尼语NER任务上微调的命名实体识别模型
序列标注
Transformers

其他
N
cahya
759.09k
3
Ner English Large
Flair框架内置的英文4类大型NER模型,基于文档级XLM-R嵌入和FLERT技术,在CoNLL-03数据集上F1分数达94.36。
序列标注
PyTorch
英语
N
flair
749.04k
44
Punctuate All
MIT
基于xlm-roberta-base微调的多语言标点符号预测模型,支持12种欧洲语言的标点符号自动补全
序列标注
Transformers

P
kredor
728.70k
20
Xlm Roberta Ner Japanese
MIT
基于xlm-roberta-base微调的日语命名实体识别模型
序列标注
Transformers

支持多种语言
X
tsmatz
630.71k
25
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers

支持多种语言
L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers

英语
C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统
中文
R
uer
2,694
98
AIbase是一个专注于MCP服务的平台,为AI开发者提供高质量的模型上下文协议服务,助力AI应用开发。
简体中文