语言: 法语
许可证: 知识共享署名-非商业性使用-相同方式共享3.0
数据集:
示例输入:
-
文本: 《玩具总动员》何时何地上映?
上下文: >
皮克斯动画工作室(简称皮克斯)是美国一家制作三维合成影像电影的公司。它因1995年在美国上映的首部此类长片《玩具总动员》而闻名。至今,该动画工作室已获得19项奥斯卡奖、4项金球奖、3项格莱美奖及众多其他奖项。工作室使用其自研的PhotoRealistic RenderMan渲染编程接口创建高质量图像。其制作室和总部位于加利福尼亚州旧金山附近的埃默里维尔皮克斯园区。
-
文本: 该工作室的首部长片是什么?
上下文: >
皮克斯动画工作室(简称皮克斯)是美国一家制作三维合成影像电影的公司。它因1995年在美国上映的首部此类长片《玩具总动员》而闻名。至今,该动画工作室已获得19项奥斯卡奖、4项金球奖、3项格莱美奖及众多其他奖项。工作室使用其自研的PhotoRealistic RenderMan渲染编程接口创建高质量图像。其制作室和总部位于加利福尼亚州旧金山附近的埃默里维尔皮克斯园区。
基础模型:
- cmarkea/distilcamembert-base
DistilCamemBERT-QA
我们推出DistilCamemBERT-QA,这是基于DistilCamemBERT微调的法语问答任务模型。该模型使用FQuAD v1.0和Piaf两个数据集构建,包含上下文、问题及上下文中的答案。
此模型设计与基于CamemBERT的etalab-ia/camembert-base-squadFR-fquad-piaf类似。基于CamemBERT的模型在规模化应用(如生产环境)时存在推理成本高的技术问题。为此,我们通过DistilCamemBERT实现了推理时间减半且计算资源消耗相同的优化方案。
数据集
训练集包含FQuAD v1.0和Piaf的24,566组问答对,评估集含3,188组。
评估结果与基准测试
我们将DistilCamemBERT-QA与另外两个法语模型对比:基于法语RoBERTa模型CamemBERT的etalab-ia/camembert-base-squadFR-fquad-piaf,以及基于BERT架构法语模型FlauBERT的fmikaelian/flaubert-base-uncased-squad。
测试采用逐词匹配比较预测答案与标准答案,使用F1分数衡量预测与真实答案的交集质量,并计算标准答案是否包含在预测答案中的包含率。硬件环境为AMD Ryzen 5 4500U @ 2.3GHz 6核处理器。
FlauBERT模型结果异常偏低,推测存在建模问题。
使用方法
from transformers import pipeline
qa_engine = pipeline(
"question-answering",
model="cmarkea/distilcamembert-base-qa",
tokenizer="cmarkea/distilcamembert-base-qa"
)
result = qa_engine(
context="大卫·芬奇,1962年8月28日生于科罗拉多州丹佛市,是美国导演兼制片人。代表作包括《七宗罪》《搏击俱乐部》《本杰明·巴顿奇事》《社交网络》和《消失的爱人》,这些作品为他赢得了奥斯卡奖和金球奖的多项提名与奖项。他以完美主义著称,常为单个镜头拍摄大量条次以实现理想视觉效果。他还开发并监制了Netflix剧集《纸牌屋》(2013年获艾美奖剧情类最佳导演)和《心灵猎人》",
question="大卫·芬奇的职业是什么?"
)
{'score': 0.7981914281845093,
'start': 61,
'end': 98,
'answer': '导演兼制片人'}
Optimum + ONNX 加速
from optimum.onnxruntime import ORTModelForQuestionAnswering
from transformers import AutoTokenizer, pipeline
HUB_MODEL = "cmarkea/distilcamembert-base-qa"
tokenizer = AutoTokenizer.from_pretrained(HUB_MODEL)
model = ORTModelForQuestionAnswering.from_pretrained(HUB_MODEL)
onnx_qa = pipeline("question-answering", model=model, tokenizer=tokenizer)
quantized_model = ORTModelForQuestionAnswering.from_pretrained(
HUB_MODEL, file_name="model_quantized.onnx"
)
引用
@inproceedings{delestre:hal-03674695,
TITLE = {{DistilCamemBERT:法语CamemBERT模型的蒸馏}},
AUTHOR = {Delestre, Cyrile and Amar, Abibatou},
BOOKTITLE = {{机器学习会议(CAp)}},
YEAR = {2022},
MONTH = Jul,
KEYWORDS = {自然语言处理;Transformer;CamemBERT;模型蒸馏},
HAL_ID = {hal-03674695},
}