许可证: mit
数据集:
- Genius1237/TyDiP
语言:
- 英语
- 印地语
- 韩语
- 西班牙语
- 泰米尔语
- 法语
- 越南语
- 俄语
- 南非荷兰语
- 匈牙利语
评估指标:
- 准确率
任务标签: 文本分类
多语言礼貌度分类模型
该模型基于xlm-roberta-large
架构,并在TyDiP数据集的英语子集上进行了微调,原始论文详见此处。
支持语言
论文中评估了该模型在英语+9种语言(印地语、韩语、西班牙语、泰米尔语、法语、越南语、俄语、南非荷兰语、匈牙利语)上的表现。鉴于模型优异的表现和XLMR的跨语言能力,这个微调后的模型很可能也适用于更多语言。
评估结果
TyDiP测试集上10种语言的礼貌度分类准确率如下:
语言 |
准确率 |
英语 |
0.892 |
印地语 |
0.868 |
韩语 |
0.784 |
西班牙语 |
0.84 |
泰米尔语 |
0.78 |
法语 |
0.82 |
越南语 |
0.844 |
俄语 |
0.668 |
南非荷兰语 |
0.856 |
匈牙利语 |
0.812 |
使用方式
可直接通过文本分类管道使用该模型:
from transformers import pipeline
classifier = pipeline(task="text-classification", model="Genius1237/xlm-roberta-large-tydip")
sentences = ["Could you please get me a glass of water", "mere liye पानी का एक गिलास ले आओ "]
print(classifier(sentences))
进阶使用方式:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
tokenizer = AutoTokenizer.from_pretrained('Genius1237/xlm-roberta-large-tydip')
model = AutoModelForSequenceClassification.from_pretrained('Genius1237/xlm-roberta-large-tydip')
text = "Could you please get me a glass of water"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
prediction = torch.argmax(output.logits).item()
print(model.config.id2label[prediction])
引用文献
@inproceedings{srinivasan-choi-2022-tydip,
title = "{T}y{D}i{P}: 九种类型多样语言的礼貌度分类数据集",
author = "Srinivasan, Anirudh and
Choi, Eunsol",
booktitle = "计算语言学协会发现:EMNLP 2022",
month = 12,
year = "2022",
address = "阿联酋阿布扎比",
publisher = "计算语言学协会",
url = "https://aclanthology.org/2022.findings-emnlp.420",
doi = "10.18653/v1/2022.findings-emnlp.420",
pages = "5723--5738",
abstract = "我们研究了九种类型多样语言中的礼貌现象。礼貌是交流的重要方面,有时被认为具有文化特异性,但现有的计算语言学研究仅限于英语。我们创建了TyDiP数据集,包含每种语言500个例子的三向礼貌标注,总计4.5K个例子。我们评估了多语言模型识别礼貌程度的能力——它们显示出相当稳健的零样本迁移能力,但仍显著低于估计的人类准确率。我们进一步研究通过自动翻译和词典归纳将英语礼貌策略词典映射到九种语言,分析每种策略的影响是否在不同语言间保持一致。最后,我们通过迁移实验实证研究了形式与礼貌之间复杂的关系。我们希望我们的数据集能够支持从评估多语言模型到构建礼貌多语言代理等各种研究问题和应用。",
}