语言: 法语
数据集:
- etalab-ia/piaf
- fquad
- lincoln/newsquadfr
- pragnakalp/squad_v2_french_translated
- CATIE-AQ/frenchQA
示例输入:
- 文本: "每天有多少人使用法语?"
上下文: >-
法语是印欧语系罗曼语族的一种语言,使用者被称为法语人口,有时也被誉为莫里哀的语言。截至2023年,全球约有3.21亿人使用法语:其中2.35亿人日常使用,9000万人以法语为母语。2018年,全球有8000万学生接受法语教育。根据法语国家国际组织(OIF)预测,到2050年地球上的法语人口可能达到7亿。
许可证: MIT
评估指标:
- F1值
- 精确匹配
库名称: transformers
任务标签: 问答系统
二氧化碳当量排放: 100
新版本: CATIE-AQ/QAmemberta
QAmembert模型
模型描述
我们推出QAmemBERT模型,该模型基于CamemBERT基础版针对法语问答任务进行微调,训练数据包含四种法语问答数据集。这些数据集格式涵盖:
- 答案存在于上下文中的SQuAD 1.0格式
- 答案不存在于上下文中的SQuAD 2.0格式
所有数据集合并为frenchQA统一数据集,总计使用221,348组上下文/问题/答案三元组进行训练,6,376组用于测试。方法论详见英文博客或法文博客。
数据集详情
数据集 |
格式 |
训练集 |
开发集 |
测试集 |
piaf |
SQuAD 1.0 |
9,224组 |
X |
X |
piaf_v2 |
SQuAD 2.0 |
9,224组 |
X |
X |
fquad |
SQuAD 1.0 |
20,731组 |
3,188组(未用于训练,作为测试集) |
2,189组(未使用) |
fquad_v2 |
SQuAD 2.0 |
20,731组 |
3,188组(未用于训练) |
X |
lincoln/newsquadfr |
SQuAD 1.0 |
1,650组 |
455组(未使用) |
X |
lincoln/newsquadfr_v2 |
SQuAD 2.0 |
1,650组 |
455组(未使用) |
X |
pragnakalp/squad_v2_french_translated |
SQuAD 2.0 |
79,069组 |
X |
X |
pragnakalp/squad_v2_french_translated_v2 |
SQuAD 2.0 |
79,069组 |
X |
X |
评估结果
使用evaluate工具包进行评估。
FQuaD 1.0(验证集)
采用SQuAD 1.0指标
qwant/squad_fr(验证集)
采用SQuAD 1.0指标
frenchQA(含无答案问题)
采用SQuAD 2.0指标
使用示例
上下文含答案的情况
from transformers import pipeline
qa = pipeline('question-answering', model='CATIE-AQ/QAmembert', tokenizer='CATIE-AQ/QAmembert')
result = qa({
'question': "每天有多少人使用法语?",
'context': "法语是印欧语系罗曼语族的一种语言...(此处为完整上下文)"
})
if result['score'] < 0.01:
print("答案不在提供的上下文中")
else:
print(result['answer'])
输出: 2.35亿
上下文不含答案的情况
result = qa({
'question': "世界上最好的葡萄酒是什么?",
'context': "埃菲尔铁塔是位于巴黎...(此处为铁塔描述)"
})
输出: 答案不在提供的上下文中
在线体验
可通过Space应用测试模型。
环境影响
碳排放估算采用Lacoste等人(2019)提出的机器学习影响计算器。
- 硬件类型: A100 PCIe 40/80GB
- 使用时长: 5小时36分钟
- 云服务商: 私有基础设施
- 碳效率(kg/kWh): 0.076kg(基于electricitymaps估算)
- 碳排放量: 0.1 kg 二氧化碳当量
引用文献
(此处保留原始文献引用格式,仅翻译说明性文字)
许可证
MIT