M

Multilingual IPTC News Topic Classifier

由 classla 开发
基于xlm-roberta-large的多语言新闻主题分类模型,支持17个IPTC媒体主题标签分类
下载量 78.56k
发布时间 : 8/8/2024
模型介绍
内容详情
替代品

模型简介

该模型用于对新闻文本进行IPTC媒体主题分类,支持多种语言,适用于新闻行业的内容分类和标签化。

模型特点

多语言支持
支持xlm-roberta-large支持的所有语言,包括但不限于克罗地亚语、斯洛文尼亚语、加泰罗尼亚语和希腊语
IPTC标准分类
使用IPTC媒体主题新闻代码体系的17个顶级标签进行分类
高性能
在手动标注测试集上,宏观F1得分为0.746,微观F1得分为0.734,准确率为0.734,优于零样本设置的GPT-4o模型
高置信度筛选
当仅使用置信度分数≥0.90的标签时,模型的微观F1和宏观F1可达0.80

模型能力

多语言文本分类
新闻主题识别
IPTC标准标签应用

使用案例

新闻行业
新闻内容分类
对新闻文章进行自动主题分类,便于内容管理和检索
准确率达到0.734,优于GPT-4o零样本设置
新闻聚合
根据主题对多语言新闻进行聚合和组织
内容管理
内容标签化
为新闻内容自动添加IPTC标准标签