语言: 西班牙语
标签:
数据集:
示例输入:
- 文本: '单词“haiga”被西班牙皇家学院(RAE)接受[分隔符]单词“haiga”被西班牙皇家学院(RAE)接受。西班牙皇家语言学院(RAE)已认可“HAIGA”的使用,用于动词“hacer”(做)现在虚拟式单数三人称,尽管该机构强调,在规范语言中,该时态最推荐的形态仍是“haya”。
RAE的消息来源证实了这一变更,并解释称此提议已由语言学院全体会议通过,原因是该词在全国范围内广泛使用,尤其常见于未受教育或仅完成基础学业的人群中。今后,那位每天念叨“只要有活儿干(haiga faena),我们就不能抱怨”的同事,或是反复强调“谁拿了玩具(haiga sacao los juguetes),谁就得收拾”的祖母,将不再成为嘲笑对象。
RAE近期收录的其他新词还包括“Descambiar”(意为撤销交易,例如“退货”)。照此趋势,恐怕没人敢打赌“follamigos”(炮友)不会成为下一个入选词汇。'
评估指标:
模型索引:
- 名称: roberta-large-fake-news-detection-spanish
结果: []
RoBERTa-large西班牙语虚假新闻检测模型
本模型是基于PlanTL-GOB-ES/roberta-large-bne在西班牙虚假新闻数据集上微调的版本。
在评估集上取得如下结果:
- 损失值: 1.7474
- F1值: 0.7717
- 准确率: 0.7797
根据排行榜显示,我们的模型超越了最佳模型(原最高F1值=0.7666)。
模型描述
RoBERTa-large-bne是基于Transformer架构的西班牙语掩码语言模型。该模型以RoBERTa large为基础,使用西班牙国家图书馆(Biblioteca Nacional de España)2009至2019年间爬取的570GB纯净去重文本进行预训练,是迄今最大规模的西班牙语预训练语料库。
应用场景与限制
本模型旨在通过分析文本表征来判断新闻真伪。
训练与评估数据
FakeDeS: 西班牙语虚假新闻检测共享任务
虚假新闻出于恐怖主义、政治选举、广告营销、讽刺创作等不同目的传播误导性信息。社交媒体上,不实信息能在数秒内扩散至数千用户,因此亟需开发控制网络虚假信息的工具。相关任务还包括社交媒体热度检测和消息主观性判断。虚假新闻检测系统通过分析经人工标注的真假新闻样本,帮助用户识别潜在欺诈内容。
西班牙虚假新闻语料库收集自2018年1月至7月期间的多类网络来源:
- 主流报纸网站
- 传媒公司官网
- 专业辟谣网站
- 被记者标记为常发布虚假新闻的网站
语料库包含971条墨西哥西班牙语新闻,标注过程遵循以下原则:
- 真实新闻:在可靠信源发布的证据
- 虚假新闻:被可靠信源反驳或除原始出处外无其他佐证
- 确保每个事件的真假新闻成对出现以建立关联
为避免主题偏差,语料涵盖9大领域:科学、体育、经济、教育、娱乐、政治、健康、安全、社会。训练集(676条)与测试集(295条)按7:3比例划分,类别分布均衡。
训练语料包含以下字段:
- 类别:真实/虚假
- 主题:科学/体育/经济/教育/娱乐/政治/健康/安全/社会
- 标题:新闻标题
- 正文:完整新闻内容
- 链接:发布网址
(更多信息待补充)
训练流程
待补充
训练超参数
- 学习率: 2e-05
- 训练批次: 4
- 评估批次: 4
- 随机种子: 42
- 优化器: Adam (beta1=0.9, beta2=0.999, epsilon=1e-08)
- 学习率调度: 线性
- 训练轮次: 10
训练结果
训练损失 |
轮次 |
步数 |
验证损失 |
F1值 |
准确率 |
无记录 |
1.0 |
243 |
0.6282 |
0.7513 |
0.75 |
无记录 |
2.0 |
486 |
0.9600 |
0.7346 |
0.7587 |
0.5099 |
3.0 |
729 |
1.2128 |
0.7656 |
0.7570 |
0.5099 |
4.0 |
972 |
1.4001 |
0.7606 |
0.7622 |
0.1949 |
5.0 |
1215 |
1.9748 |
0.6475 |
0.7220 |
0.1949 |
6.0 |
1458 |
1.7386 |
0.7706 |
0.7710 |
0.0263 |
7.0 |
1701 |
1.7474 |
0.7717 |
0.7797 |
0.0263 |
8.0 |
1944 |
1.8114 |
0.7695 |
0.7780 |
0.0046 |
9.0 |
2187 |
1.8444 |
0.7709 |
0.7797 |
0.0046 |
10.0 |
2430 |
1.8552 |
0.7709 |
0.7797 |
快速调用(使用HuggingFace管道)
from transformers import pipeline
ckpt = "Narrativaai/fake-news-detection-spanish"
classifier = pipeline("text-classification", model=ckpt)
headline = "新闻标题"
text = "新闻正文..."
classifier(headline + " [SEP] " + text)
依赖版本
- Transformers 4.11.3
- Pytorch 1.9.0+cu111
- Datasets 1.14.0
- Tokenizers 0.10.3
开发团队: Narrativa
关于Narrativa: 自然语言生成(NLG)专家 | Gabriele是我们的机器学习平台,致力于构建和部署自然语言解决方案。#NLG #AI