license: apache-2.0
datasets:
- EmergentMethods/AskNews-NER-v0
tags:
- gliner
language:
- en
pipeline_tag: token-classification
GLiNER中型新闻模型v2.1卡片
本模型是基于GLiNER的微调版本,旨在提升跨领域主题的识别准确率,特别针对长文本新闻实体抽取场景。如下表所示,该微调模型在18个基准测试数据集上的零样本准确率较基础GLiNER模型最高提升达7.5%。

底层数据集AskNews-NER-v0通过强制国家/语言/主题/时间多样性来构建全球多元视角。所有微调数据均为合成生成:使用WizardLM 13B v1.2进行开放网络新闻的翻译/摘要,采用Llama3 70b指令模型完成实体抽取。数据多样化方法与微调策略详见我们在ArXiv发表的论文。
使用示例
from gliner import GLiNER
model = GLiNER.from_pretrained("EmergentMethods/gliner_medium_news-v2.1")
text = """
奇瓦瓦州公共安全秘书处(SSPE)在华雷斯城逮捕了35岁的Salomón C. T.,其持有一辆被盗的白色GMC Yukon汽车,该车此前已在市区报失。此次逮捕由情报分析人员在边境城市调查期间完成,与2月6日涉及武装人员驾驶私家车的案件相关。嫌疑人及车辆已移交奇瓦瓦州总检察长办公室进行深入调查。
"""
labels = ["人物", "地点", "日期", "事件", "设施", "交通工具", "数字", "组织机构"]
entities = model.predict_entities(text, labels)
for entity in entities:
print(entity["text"], "=>", entity["label"])
输出结果:
奇瓦瓦州公共安全秘书处 => 组织机构
SSPE => 组织机构
35岁 => 数字
Salomón C. T. => 人物
华雷斯城 => 地点
GMC Yukon => 交通工具
2月6日 => 日期
奇瓦瓦州总检察长办公室 => 组织机构
模型详情
模型描述
本新闻微调模型的合成数据源自AskNews API,严格保证国家/语言/主题/时间的多样性分布。
国家分布:

实体类型:

主题分布:

模型来源
- 代码库: 即将发布
- 论文: 即将发布
- 演示: 即将发布
应用场景
直接应用
虽然针对新闻领域微调,但该模型在18个基准测试中普遍提升性能,表明其广谱实体识别能力。模型体积精巧,适合高吞吐量生产环境,目前已被AskNews系统采用。
偏差与限制
尽管通过数据多样化减少偏差,但仍存在西方语言/国家的倾向性。这种局限源于Llama2的翻译/摘要能力边界,且Llama3的实体抽取过程也会继承其训练数据偏差。

快速开始
参见前文代码示例。
训练细节
训练数据集为AskNews-NER-v0,完整训练参数详见配套论文。
环境影响
- 硬件配置: 1xA4500显卡
- 训练时长: 10小时
- 碳排放量: 0.6千克(依据机器学习碳足迹计算器)
引用文献
BibTeX格式:
即将发布
APA格式:
即将发布
模型作者
Elin Törnquist, Emergent Methods (elin@emergentmethods.ai)
Robert Caulk, Emergent Methods (rob@emergentmethods.ai)
联系信息
Elin Törnquist, Emergent Methods (elin@emergentmethods.ai)
Robert Caulk, Emergent Methods (rob@emergentmethods.ai)