license: apache-2.0
datasets:
- EmergentMethods/AskNews-NER-v0
tags:
- gliner
language:
- en
pipeline_tag: token-classification
GLiNER小型新闻模型卡片 v2.1
本模型是基于GLiNER的微调版本,旨在提升跨领域主题的识别准确率,尤其擅长长文本新闻实体抽取。如下表所示,该微调模型在18个基准测试数据集上的零样本准确率较基础GLiNER模型最高提升达7.5%。

底层数据集AskNews-NER-v0通过强制国家/语言/主题/时间多样性来构建全球视角。所有微调数据均为合成生成:使用WizardLM 13B v1.2进行开放网络新闻的翻译/摘要,采用Llama3 70b指令版完成实体抽取。多样性构建方法与微调策略详见我们的ArXiv论文。
使用示例
from gliner import GLiNER
model = GLiNER.from_pretrained("EmergentMethods/gliner_small_news-v2.1")
text = """
奇瓦瓦州公共安全秘书处(SSPE)在华雷斯城逮捕了35岁的Salomón C. T.,其被发现持有一辆被盗的白色GMC Yukon汽车,该车此前已在市区报失。此次逮捕由情报与警力分析人员在边境城市调查期间完成。该案与2月6日涉及私人车辆武装人员的先前拘捕有关。嫌疑人及车辆已移交奇瓦瓦州总检察长办公室进行深入调查。
"""
labels = ["人物", "地点", "日期", "事件", "设施", "交通工具", "数字", "组织机构"]
entities = model.predict_entities(text, labels)
for entity in entities:
print(entity["text"], "=>", entity["label"])
输出结果:
奇瓦瓦州公共安全秘书处 => 组织机构
SSPE => 组织机构
35岁 => 数字
Salomón C. T. => 人物
华雷斯城 => 地点
GMC Yukon => 交通工具
2月6日 => 日期
奇瓦瓦州总检察长办公室 => 组织机构
模型详情
模型描述
本新闻微调模型的合成数据源自AskNews API,严格保证国家/语言/主题/时间的多样性分布:
国家分布:

实体类型:

主题分布:

模型来源
- 代码库: 即将发布
- 论文: 即将发布
- 演示: 即将发布
应用场景
直接应用
虽然针对新闻领域微调,但该模型在18个基准测试中普遍提升表现,证明其具备通用实体识别能力。模型体积精巧,适合高吞吐量生产环境。AskNews已将其应用于实体抽取系统。
偏差与局限
尽管通过数据集设计降低偏差,但受限于Llama2/3的翻译与摘要能力,模型仍存在西方语言/国家偏向性。Llama训练数据中的潜在偏差也会通过摘要生成和实体抽取环节传递到本模型。

快速开始
参考前述代码示例即可使用模型。
训练细节
训练数据集详见AskNews-NER-v0,完整训练参数参见配套论文。
环境影响
- 硬件配置: 1xA4500显卡
- 训练时长: 10小时
- 碳排放量: 0.6千克(依据机器学习碳足迹计算器)
引用文献
BibTeX格式: 即将发布
APA格式: 即将发布
模型作者
Elin Törnquist, Emergent Methods
elin@emergentmethods.ai
Robert Caulk, Emergent Methods
rob@emergentmethods.ai
联系方式
Elin Törnquist, Emergent Methods
elin@emergentmethods.ai
Robert Caulk, Emergent Methods
rob@emergentmethods.ai