语言:
许可证: apache-2.0
标签:
数据集:
模型索引:
- 名称: roberta-base-ca-v2-cased-qa
结果:
- 任务:
类型: 问答
数据集:
类型: projecte-aina/catalanqa
名称: CatalanQA
指标:
- 任务:
类型: 问答
数据集:
类型: projecte-aina/xquad-ca
名称: XQuAD-Ca
指标:
指标:
小部件:
-
文本: "Super3是什么时候开始的?"
上下文: "Super3或Club Super3是一个加泰罗尼亚儿童宇宙,自1991年起由加泰罗尼亚电视台播出。它包括一个电视频道、Súpers!杂志、Súpers节日和一个拥有150万会员的俱乐部。"
-
文本: "马克思兄弟有多少人?"
上下文: "马克思兄弟是美国的一个喜剧团体,最初由五兄弟组成(括号内为艺名):Leonard(Chico)、Adolph(Harpo)、Julius(Groucho)、Milton(Gummo)和Herbert(Zeppo)。"
-
文本: "1992年奥运会在哪里举行?"
上下文: "1992年夏季奥运会,正式名称为第25届奥运会,于1992年7月25日至8月9日在巴塞罗那市举行。共有来自169个国家和地区的9,356名运动员(6,652名男性和2,704名女性)参加了32个运动项目和286个专项比赛。"
-
文本: "谁设计了圣家堂?"
上下文: "圣家赎罪殿,通常称为圣家堂,是位于巴塞罗那市的一座天主教大教堂。它是加泰罗尼亚现代主义最著名的例子之一,也是世界上独一无二的建筑,已成为该市的象征。这是加泰罗尼亚建筑师安东尼·高迪未完成的作品,位于该市扩展区的圣家堂社区。"
-
文本: "地球上第三大火山是哪个?"
上下文: "泰德峰(或泰德峰)是特内里费岛、加那利群岛(北纬28.27度,西经16.6度)的一座成层火山和山峰。海拔3,718米,相对于邻近海底约7,000米,是西班牙最高的山峰,也是所有大西洋岛屿中最高的山峰,地球上第三大火山。"
加泰罗尼亚BERTa-v2 (roberta-base-ca-v2) 微调用于问答任务。
目录
点击展开
模型描述
roberta-base-ca-v2-cased-qa 是一个用于加泰罗尼亚语的问答(QA)模型,基于roberta-base-ca-v2模型微调而来,该模型是一个RoBERTa基础模型,预训练于从公开可用语料库和爬虫收集的中等规模语料(更多详情请参阅roberta-base-ca-v2模型卡片)。
预期用途与限制
roberta-base-ca-v2-cased-qa 模型可用于抽取式问答。该模型受限于其训练数据集,可能无法在所有用例中表现良好。
如何使用
以下是使用该模型的方法:
from transformers import pipeline
nlp = pipeline("question-answering", model="projecte-aina/roberta-base-ca-v2-cased-qa")
text = "Super3是什么时候开始的?"
context = "Super3或Club Super3是一个加泰罗尼亚儿童宇宙,自1991年起由加泰罗尼亚电视台播出。它包括一个电视频道、Súpers!杂志、Súpers节日和一个拥有150万会员的俱乐部。"
qa_results = nlp(text, context)
print(qa_results)
限制与偏见
在提交时,尚未采取措施评估模型中嵌入的偏见。然而,我们清楚地意识到,由于语料库是通过在多个网络来源上使用爬取技术收集的,我们的模型可能存在偏见。我们计划未来在这些领域进行研究,如果完成,将更新此模型卡片。
训练
训练数据
我们使用名为CatalanQA的加泰罗尼亚语问答数据集进行训练和评估,并使用XQuAD-ca测试集进行评估。
训练过程
模型以16的批次大小和5e-5的学习率训练了5个周期。然后,我们使用相应开发集中的下游任务指标选择最佳检查点,并在测试集上评估。
评估
变量与指标
该模型通过最大化F1分数进行微调。
评估结果
我们在CatalanQA和XQuAD-ca测试集上评估了_roberta-base-ca-v2-cased-qa_,并与标准的多语言和单语言基线进行了比较:
模型 |
CatalanQA (F1/EM) |
XQuAD-Ca (F1/EM) |
roberta-base-ca-v2-cased-qa |
89.50/76.63 |
73.64/55.42 |
roberta-base-ca-cased-qa |
89.17/77.14 |
69.20/51.47 |
mBERT |
86.90/74.19 |
68.79/50.80 |
XLM-RoBERTa |
88.17/75.93 |
72.55/54.16 |
更多详情,请参阅官方GitHub仓库中的微调和评估脚本。
附加信息
作者
巴塞罗那超级计算中心文本挖掘单元(bsc-temu@bsc.es)
联系信息
如需更多信息,请发送电子邮件至aina@bsc.es
版权
版权所有 (c) 2022 巴塞罗那超级计算中心文本挖掘单元
许可信息
Apache License, Version 2.0
资助
本作品由[加泰罗尼亚政府副总统及数字化与领土政策部](https://politiquesdigitals.gencat.cat/ca/inici/index.html#googtrans(ca|en)在Projecte AINA框架内资助。
引用信息
如果您在您的工作中使用任何这些资源(数据集或模型),请引用我们的最新论文:
@inproceedings{armengol-estape-etal-2021-multilingual,
title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
author = "Armengol-Estap{\'e}, Jordi and
Carrino, Casimiro Pio and
Rodriguez-Penagos, Carlos and
de Gibert Bonet, Ona and
Armentano-Oller, Carme and
Gonzalez-Agirre, Aitor and
Melero, Maite and
Villegas, Marta",
booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
month = aug,
year = "2021",
address = "Online",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/2021.findings-acl.437",
doi = "10.18653/v1/2021.findings-acl.437",
pages = "4933--4946",
}
免责声明
点击展开
本仓库发布的模型旨在用于通用目的,并向第三方提供。这些模型可能存在偏见和/或其他不良偏差。
当第三方部署或提供基于这些模型(或使用基于这些模型的系统)的系统和服务给其他方,或成为这些模型的用户时,他们应注意,他们有责任减轻使用这些模型所产生的风险,并在任何情况下遵守适用的法规,包括关于人工智能使用的法规。
在任何情况下,模型的拥有者和创建者(巴塞罗那超级计算中心)均不对第三方使用这些模型所产生的任何结果负责。