模型简介
模型特点
模型能力
使用案例
许可证:cc-by-sa-4.0
语言:
- 多语言
- 南非荷兰语
- 阿姆哈拉语
- 阿拉伯语
- 阿萨姆语
- 阿塞拜疆语
- 白俄罗斯语
- 保加利亚语
- 孟加拉语
- 布列塔尼语
- 波斯尼亚语
- 加泰罗尼亚语
- 捷克语
- 威尔士语
- 丹麦语
- 德语
- 希腊语
- 英语
- 世界语
- 西班牙语
- 爱沙尼亚语
- 巴斯克语
- 波斯语
- 芬兰语
- 法语
- 弗里斯兰语
- 爱尔兰语
- 苏格兰盖尔语
- 加利西亚语
- 古吉拉特语
- 豪萨语
- 希伯来语
- 印地语
- 克罗地亚语
- 匈牙利语
- 亚美尼亚语
- 印尼语
- 冰岛语
- 意大利语
- 日语
- 爪哇语
- 格鲁吉亚语
- 哈萨克语
- 高棉语
- 卡纳达语
- 韩语
- 库尔德语
- 吉尔吉斯语
- 拉丁语
- 老挝语
- 立陶宛语
- 拉脱维亚语
- 马尔加什语
- 马其顿语
- 马拉雅拉姆语
- 蒙古语
- 马拉地语
- 马来语
- 缅甸语
- 尼泊尔语
- 荷兰语
- 挪威语
- 奥罗莫语
- 奥里亚语
- 旁遮普语
- 波兰语
- 普什图语
- 葡萄牙语
- 罗马尼亚语
- 俄语
- 梵语
- 信德语
- 僧伽罗语
- 斯洛伐克语
- 斯洛文尼亚语
- 索马里语
- 阿尔巴尼亚语
- 塞尔维亚语
- 巽他语
- 瑞典语
- 斯瓦希里语
- 泰米尔语
- 泰卢固语
- 泰语
- 他加禄语
- 土耳其语
- 维吾尔语
- 乌克兰语
- 乌尔都语
- 乌兹别克语
- 越南语
- 科萨语
- 意第绪语
- 中文
标签:
- 文本分类
- IPTC
- 新闻
- 新闻主题
- IPTC主题
- IPTC新闻代码
- 主题分类
示例:
- 文本:狗狗啃咬移动电源引发房屋火灾瞬间
室内监控摄像头记录下一只狗狗啃咬便携式锂离子移动电源时意外引发房屋火灾的瞬间。
示例标题:英语 - 文本:内政部近月来致力于起草《外国人法》提案草案。现行《外国人法》已与22项指令、建议、决定和决议相协调,鉴于涉及大量条款,需更明确规定,旨在提高透明度和清晰度。
示例标题:克罗地亚语 - 文本:在2024年6月28日星期六特雷布涅市纪念日庆祝活动中,斯洛文尼亚共和国宗座大使Juliusz Janusz总主教阁下于特雷布涅教区教堂为祖国举行了圣母圣心节弥撒。
示例标题:斯洛文尼亚语
基础模型:
- FacebookAI/xlm-roberta-large
多语言IPTC媒体主题分类器
基于xlm-roberta-large
的新闻主题分类模型,并在4种语言的新闻语料库(克罗地亚语、斯洛文尼亚语、加泰罗尼亚语和希腊语)上进行了微调,标注了顶级IPTC媒体主题新闻代码标签。该模型的开发和评估在论文《无需人工标注数据的文本分类LLM师生框架:以IPTC新闻主题分类为例》(Kuzman和Ljubešić,2025年)中进行了描述。
该模型可用于IPTC新闻代码体系中的主题标签分类,并可应用于xlm-roberta-large
支持的任何语言的新闻文本。
基于手动标注的测试集(克罗地亚语、斯洛文尼亚语、加泰罗尼亚语和希腊语),该模型的宏观F1得分为0.746,微观F1得分为0.734,准确率为0.734,优于在零样本设置中使用的GPT-4o模型(版本gpt-4o-2024-05-13
)。如果仅使用置信度分数大于或等于0.90的标签,模型的微观F1和宏观F1得分可达0.80。
预期用途与限制
为确保结果可靠,分类器应应用于足够长度的文档(经验法则是至少75个词)。
使用示例:
from transformers import pipeline
# 加载多类分类流水线——如果模型运行在CPU上,请注释掉"device"
classifier = pipeline("text-classification", model="classla/multilingual-IPTC-news-topic-classifier", device=0, max_length=512, truncation=True)
# 待分类的示例文本
texts = [
"""斯洛文尼亚手球队晋级巴黎奥运会半决赛 里尔,8月8日——斯洛文尼亚队在周三晚间的奥运会男子手球比赛中以33:28击败挪威队,晋级半决赛,将在周五晚间对阵丹麦队。这是该队迄今为止在奥运会上取得的最佳成绩,也是斯洛文尼亚团体运动史上最出色的表现之一。""",
"""狗狗啃咬移动电源引发房屋火灾瞬间 室内监控摄像头显示,一只狗狗在啃咬便携式锂离子移动电源时意外引发房屋火灾。俄克拉荷马州塔尔萨消防部门发布的视频中,可以看到两只狗和一只猫在客厅内,随后火花引发火灾并在几分钟内蔓延。塔尔萨消防部门公共信息官安迪·利特尔表示,宠物通过狗门逃脱,据当地媒体报道,这家人也安全撤离。他告诉CBS附属电视台KOTV:“如果没有狗门,它们很可能已经丧生。”"""]
# 对文本进行分类
results = classifier(texts)
# 输出结果
for result in results:
print(result)
## 输出
## {'label': 'sport', 'score': 0.9985264539718628}
## {'label': 'disaster, accident and emergency incident', 'score': 0.9957459568977356}
IPTC媒体主题类别
分类器使用IPTC媒体主题新闻代码体系的顶级标签,共17个。
标签列表
labels_list=['education', 'human interest', 'society', 'sport', 'crime, law and justice',
'disaster, accident and emergency incident', 'arts, culture, entertainment and media', 'politics',
'economy, business and finance', 'lifestyle and leisure', 'science and technology',
'health', 'labour', 'religion', 'weather', 'environment', 'conflict, war and peace'],
labels_map={0: 'education', 1: 'human interest', 2: 'society', 3: 'sport', 4: 'crime, law and justice',
5: 'disaster, accident and emergency incident', 6: 'arts, culture, entertainment and media',
7: 'politics', 8: 'economy, business and finance', 9: 'lifestyle and leisure', 10: 'science and technology',
11: 'health', 12: 'labour', 13: 'religion', 14: 'weather', 15: 'environment', 16: 'conflict, war and peace'}
标签描述
标签的描述基于IPTC媒体主题新闻代码体系提供的信息,并补充了根据IPTC媒体主题标签层次结构属于顶级主题的具体子主题信息。
标签 | 描述 |
---|---|
disaster, accident and emergency incident | 人为或自然事件导致伤害、死亡或损失,例如爆炸、交通事故、饥荒、溺水、自然灾害、应急计划与响应。 |
human interest | 关于皇室和名人生活与行为的新闻,获奖新闻,仪式(毕业、婚礼、葬礼、启动仪式),生日和周年纪念,以及关于人类愚蠢或愚蠢错误的新闻。 |
politics | 关于地方、区域、国家和国际权力行使的新闻,包括选举、基本权利、政府、非政府组织、政治危机、非暴力国际关系、公务员、政府政策等新闻。 |
education | 所有形式的知识传授,正式或非正式,包括关于学校、课程、评分、远程学习、教师和学生的新闻。 |
crime, law and justice | 关于犯罪和非法活动的新闻,法院系统、法律和执法(如法官、律师、审判、对罪犯的惩罚)。 |
economy, business and finance | 关于公司、产品和服务、各类行业、国民经济、国际贸易、银行、(加密)货币、商业和贸易协会、经济趋势和指标(通货膨胀、就业统计、GDP、抵押贷款等)、国际经济机构、公用事业(电力、供暖、废物管理、供水)的新闻。 |
conflict, war and peace | 关于恐怖主义、战争、战争受害者、网络战、内乱(示威、骚乱、叛乱)、和平谈判和其他和平活动的新闻。 |
arts, culture, entertainment and media | 关于电影、舞蹈、时尚、发型、珠宝、节日、文学、音乐、戏剧、电视节目、绘画、摄影、木工、艺术展览、图书馆和博物馆、语言、文化遗产、新闻媒体、广播和电视、社交媒体、网红和虚假信息的新闻。 |
labour | 关于就业、就业立法、雇员和雇主、通勤、育儿假、志愿服务、工资、社会保障、劳动力市场、退休、失业、工会的新闻。 |
weather | 关于天气预报、天气现象和天气预警的新闻。 |
religion | 关于宗教、邪教、宗教冲突、宗教与政府关系、教堂、宗教节日和庆典、宗教领袖和仪式、宗教文本的新闻。 |
society | 关于社会互动(如社交网络)、人口分析、人口普查、歧视、包容与公平的努力、移民和移民、人群和少数群体(LGBTQ、老年人、儿童、原住民等)、无家可归、贫困、社会问题(成瘾、欺凌)、伦理问题(自杀、安乐死、性行为)以及社会服务和慈善、关系(约会、离婚、婚姻)、家庭(计划生育、收养、堕胎、避孕、怀孕、育儿)的新闻。 |
health | 关于疾病、伤害、心理健康问题、健康治疗、饮食、疫苗、药物、政府医疗保健、医院、医务人员、健康保险的新闻。 |
environment | 关于气候变化、节能、可持续性、污染、人口增长、自然资源、森林、山脉、水体、生态系统、动物、花卉和植物的新闻。 |
lifestyle and leisure | 关于爱好、俱乐部和社团、游戏、彩票、对食物或饮料的热情、汽车/摩托车爱好者、公共假期、休闲场所(游乐园、咖啡馆、酒吧、餐厅等)、锻炼和健身、户外休闲活动(如钓鱼、狩猎)、旅行和旅游、心理健康、派对、房屋和花园的维护与装饰的新闻。 |
science and technology | 关于自然科学和社会科学、数学、技术与工程、科学机构、科学研究、科学出版物和创新的新闻。 |
sport | 关于可在比赛中进行的体育运动的新闻,如篮球、足球、游泳、田径、国际象棋、赛狗、跳水、高尔夫、体操、武术、攀岩等;体育成就、体育赛事、体育组织、体育场馆(体育场、体育馆等)、裁判、教练、体育俱乐部、体育中的药物使用。 |
训练数据
该模型在EMMediaTopic 1.0数据集的训练集上进行了微调,该数据集包含四种语言(克罗地亚语、斯洛文尼亚语、加泰罗尼亚语和希腊语)的15,000条新闻。新闻文本从MaCoCu-Genre网络语料库中提取,基于X-GENRE分类器预测的“新闻”类型标签。训练数据集由GPT-4o模型自动标注IPTC媒体主题标签(在测试数据集上获得0.72微观F1和0.73宏观F1)。
模型的开发和评估代码可在此GitHub仓库获取。
训练数据集中的标签分布:
标签 | 数量 | 比例 |
---|---|---|
sport | 2300 | 0.153333 |
arts, culture, entertainment and media | 2117 | 0.141133 |
politics | 2018 | 0.134533 |
economy, business and finance | 1670 | 0.111333 |
human interest | 1152 | 0.0768 |
education | 990 | 0.066 |
crime, law and justice | 884 | 0.0589333 |
health | 675 | 0.045 |
disaster, accident and emergency incident | 610 | 0.0406667 |
society | 481 | 0.0320667 |
environment | 472 | 0.0314667 |
lifestyle and leisure | 346 | 0.0230667 |
science and technology | 340 | 0.0226667 |
conflict, war and peace | 311 | 0.0207333 |
labour | 288 | 0.0192 |
religion | 258 | 0.0172 |
weather | 88 | 0.00586667 |
性能
该模型在四种语言(克罗地亚语、斯洛文尼亚语、加泰罗尼亚语和希腊语)的手动标注测试集上进行了评估,包含1,129个实例。测试集在四种语言中的文本数量相近,标签分布大致平衡。
模型在整体测试集上的微观F1得分为0.734,宏观F1得分为0.746。整体测试集和每种语言的结果如下:
微观F1 | 宏观F1 | 准确率 | 实例数量 | |
---|---|---|---|---|
全部(综合) | 0.734278 | 0.745864 | 0.734278 | 1129 |
克罗地亚语 | 0.728522 | 0.733725 | 0.728522 | 291 |
加泰罗尼亚语 | 0.715356 | 0.722304 | 0.715356 | 267 |
斯洛文尼亚语 | 0.758865 | 0.764784 | 0.758865 | 282 |
希腊语 | 0.733564 | 0.747129 | 0.733564 | 289 |
每个标签的性能:
精确率 | 召回率 | F1分数 | 支持数 | |
---|---|---|---|---|
arts, culture, entertainment and media | 0.602151 | 0.875 | 0.713376 | 64 |
conflict, war and peace | 0.611111 | 0.916667 | 0.733333 | 36 |
crime, law and justice | 0.861538 | 0.811594 | 0.835821 | 69 |
disaster, accident and emergency incident | 0.691176 | 0.886792 | 0.77686 | 53 |
economy, business and finance | 0.779221 | 0.508475 | 0.615385 | 118 |
education | 0.847458 | 0.735294 | 0.787402 | 68 |
environment | 0.589041 | 0.754386 | 0.661538 | 57 |
health | 0.79661 | 0.79661 | 0.79661 | 59 |
human interest | 0.552239 | 0.672727 | 0.606557 | 55 |
labour | 0.855072 | 0.830986 | 0.842857 | 71 |
lifestyle and leisure | 0.773585 | 0.476744 | 0.589928 | 86 |
politics | 0.568182 | 0.735294 | 0.641026 | 68 |
religion |








