license: cc-by-nc-sa-4.0
包容性改写模型
该模型是基于IT5-large微调的意大利语序列到序列模型,专为包容性语言改写任务设计。
该模型经过训练,能够分析并改写意大利语句子,使其更具包容性(如有需要)。
例如,句子I professori devono essere preparati
(教授们必须做好准备)会被改写为Il personale docente deve essere preparato
(教学人员必须做好准备)。
训练数据
该模型在包含4705对句子的数据集上进行训练,每对句子包含一个包容性句子和一个非包容性句子。数据集划分如下:
- 训练集:3764对
- 验证集:470对
- 测试集:471对
我们还利用了一小部分合成数据(通过一组规则生成)来提高模型在测试集上的性能。
因此,训练共使用了3764 + 75 = 3839对句子。
数据收集由包容性语言领域的专家手动标注(数据集尚未公开)。
训练过程
该模型基于意大利语BERT模型微调,使用以下超参数:
max_length
:128
batch_size
:8
learning_rate
:5e-5
warmup_steps
:500
epochs
:25(根据验证集BLEU
分数选择最佳模型)
optimizer
:AdamW
评估结果
模型在测试集上的评估结果如下:
模型 |
BLEU |
ROUGE-2 F1 |
人工正确率 |
人工部分正确率 (L) |
人工错误率 (L) |
IT5(无合成数据) |
80.32 |
87.17 |
64.76 |
15.71 |
19.52 |
本模型 |
80.79 |
87.47 |
69.52 |
17.14 |
13.22 |
(L) 表示“数值越低越好”。
与未使用合成数据的相同版本模型相比,合成数据有助于提高模型在测试集上的性能。
其他对比结果可参见论文。
引用
如果使用该模型,请引用以下论文:
主论文:
@article{10.1145/3729237,
author = {Greco, Salvatore and La Quatra, Moreno and Cagliero, Luca and Cerquitelli, Tania},
title = {Towards AI-Assisted Inclusive Language Writing in Italian Formal Communications},
year = {2025},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
issn = {2157-6904},
url = {https://doi.org/10.1145/3729237},
doi = {10.1145/3729237},
note = {Just Accepted},
journal = {ACM Trans. Intell. Syst. Technol.},
month = apr,
}
演示论文:
@InProceedings{PKDD23_inclusively,
author="La Quatra, Moreno
and Greco, Salvatore
and Cagliero, Luca
and Cerquitelli, Tania",
title="Inclusively: An AI-Based Assistant for Inclusive Writing",
booktitle="Machine Learning and Knowledge Discovery in Databases: Applied Data Science and Demo Track",
year="2023",
publisher="Springer Nature Switzerland",
address="Cham",
pages="361--365",
isbn="978-3-031-43430-3",
doi="10.1007/978-3-031-43430-3_31"
}