inclusively-reformulation-it5开源模型 - 免费部署实现意大利语包容性语言改写

首页

Inclusively Reformulation It5

由 E-MIMIC 开发

基于IT5-large微调的意大利语序列到序列模型，专为包容性语言改写任务设计

机器翻译

Transformers

#意大利语改写 #包容性语言 #序列到序列

下载量 70

发布时间 : 6/23/2023

模型简介

该模型能够分析并改写意大利语句子，使其更具包容性。例如将性别特定表达改写为中性表达。

模型特点

包容性改写

能够将非包容性表达自动改写为包容性表达

专业训练数据

使用专家标注的4705对句子进行训练，确保改写质量

合成数据增强

结合规则生成的合成数据提高模型性能

模型能力

意大利语文本改写

包容性语言转换

性别中性表达生成

使用案例

正式文件写作

学术文件改写

将学术文件中的性别特定表达改写为中性表达

如将'教授们'改写为'教学人员'

企业文件改写

使企业官方文件更具包容性

内容创作

新闻写作

帮助新闻工作者创作更具包容性的内容

🚀 包容性改写模型

本模型是一个意大利语的序列到序列模型，它基于 IT5-large 进行微调，用于包容性语言改写任务。

该模型经过训练，能够分析并改写意大利语句子，使其更具包容性（如有需要）。

例如，句子 I professori devono essere preparati（教授们必须做好准备）会被改写为 Il personale docente deve essere preparato（教学人员必须做好准备）。

📦 训练数据

该模型在一个包含总共 4705 对句子的数据集上进行训练，每对句子包含一个具有包容性的句子和一个不具有包容性的句子。数据集划分如下：

训练集：3764 对
验证集：470 对
测试集：471 对

我们还利用了一小部分合成数据（使用一组规则生成）来提高模型在测试集上的性能。因此，训练总共使用了 3764 + 75 = 3839 对数据。

数据收集工作由包容性语言领域的专家进行手动标注（数据集目前尚未公开）。

🔧 训练过程

该模型基于意大利语 BERT 模型进行微调，使用了以下超参数：

max_length：128
batch_size：8
learning_rate：5e - 5
warmup_steps：500
epochs：25（根据验证集的 BLEU 分数选择最佳模型）
optimizer：AdamW

📊 评估结果

该模型在测试集上进行了评估，得到以下结果：

模型	BLEU	ROUGE - 2 F1	人工完全正确	人工部分正确 (L)	人工错误 (L)
IT5（无合成数据）	80.32	87.17	64.76	15.71	19.52
本模型	80.79	87.47	69.52	17.14	13.22

指标中的 (L) 表示“数值越低越好”。与未使用合成数据的同一版本模型进行比较，结果表明合成数据有助于提高模型在测试集上的性能。其他比较结果可在论文中找到。

📄 引用

如果您使用此模型，请确保引用以下论文：

主论文：

@article{10.1145/3729237,
author = {Greco, Salvatore and La Quatra, Moreno and Cagliero, Luca and Cerquitelli, Tania},
title = {Towards AI-Assisted Inclusive Language Writing in Italian Formal Communications},
year = {2025},
publisher = {Association for Computing Machinery},
address = {New York, NY, USA},
issn = {2157-6904},
url = {https://doi.org/10.1145/3729237},
doi = {10.1145/3729237},
note = {Just Accepted},
journal = {ACM Trans. Intell. Syst. Technol.},
month = apr,
}

演示论文：

@InProceedings{PKDD23_inclusively,
author="La Quatra, Moreno
and Greco, Salvatore
and Cagliero, Luca
and Cerquitelli, Tania",
title="Inclusively: An AI-Based Assistant for Inclusive Writing",
booktitle="Machine Learning and Knowledge Discovery in Databases: Applied Data Science and Demo Track",
year="2023",
publisher="Springer Nature Switzerland",
address="Cham",
pages="361--365",
isbn="978-3-031-43430-3",
doi="10.1007/978-3-031-43430-3_31"
}

本模型采用的许可证为：CC - BY - NC - SA 4.0。