许可证:apache-2.0
数据集:
- rahular/varta
语言:
- 阿萨姆语
- 博杰普尔语
- 孟加拉语
- 英语
- 古吉拉特语
- 印地语
- 卡纳达语
- 马拉雅拉姆语
- 马拉地语
- 尼泊尔语
- 奥里亚语
- 旁遮普语
- 泰米尔语
- 泰卢固语
- 乌尔都语
Varta-T5模型
模型描述
Varta-T5是基于Varta完整训练集预训练的模型,涵盖14种印度语言(阿萨姆语、博杰普尔语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、尼泊尔语、奥里亚语、旁遮普语、泰米尔语、泰卢固语、乌尔都语)和英语,采用跨度损坏(span corruption)与间隔句生成(gap-sentence generation)作为训练目标。
Varta是一个大规模印度语言新闻语料库,包含来自多元高质量新闻源的4180万篇新闻文章,覆盖14种印度语言及英语。该数据集与模型在此论文中首次提出,代码发布于此仓库。
用途
此模型可用于因果语言建模,但主要设计用于下游任务的微调。
基于文本到文本的框架,该模型可适配任何NLP任务,包括文本生成(如机器翻译、文档摘要、问答)和分类任务(如情感分析)。
偏差、风险与局限性
本工作聚焦于为印度语言(多为低资源语言)构建新的多语言数据集。数据收集过程中存在可能引发伦理问题的局限性,主要包括:
- 数据集仅包含DailyHunt合作出版商撰写的文章,可能导致对特定叙事或意识形态的偏向,影响数据的代表性与多样性。
- 语言覆盖不全:印度22种官方语言中仅包含13种,未涵盖122种使用人数超万的主要语言及159种极低资源语言。
- 未进行去偏处理,数据中可能存在社会文化偏见,进而影响模型训练的公平性与包容性。
快速使用指南
可直接使用该模型进行文本填充任务:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("rahular/varta-t5")
model = AutoModelForSeq2SeqLM.from_pretrained("rahular/varta-t5")
训练详情
训练数据
Varta包含4180万篇高质量新闻文章,覆盖14种印度语言及英语。其中3450万篇为非英语的文章-标题配对,是同类最大规模的文档级数据集。
预训练
- 采用跨度损坏与间隔句生成作为预训练目标,两者采样概率均等。
- 跨度损坏类似掩码语言建模,但以平均长度3的标记跨度替代随机标记掩码。
- 间隔句预测则掩码整句,依据句子"重要性"选择(以句子与文档的Rouge-1 F1分数为代理指标)。
- 跨度损坏与间隔句生成的掩码比例分别为15%和20%。
针对不同语言数据量差异(博杰普尔语1.5K篇至印地语1440万篇),采用基于温度的标准采样进行必要的数据上采样。
- 模型架构:基于T5 1.1 base,含12层编码器与解码器。
- 训练配置:编码器/解码器最大序列长度分别为512/256,12个注意力头,嵌入维度768,前馈层宽度2048。
- 使用128K的SentencePiece词表,参数量总计3.95亿。
- 优化器:Adafactor,预热步数1万,初始学习率1e-3,采用平方根衰减至200万步。
- 有效批量大小256,在TPU v3-8芯片上训练11天完成。
评估结果
详见论文。
引用
@misc{aralikatte2023varta,
title={V\=arta: A Large-Scale Headline-Generation Dataset for Indic Languages},
author={Rahul Aralikatte and Ziling Cheng and Sumanth Doddapaneni and Jackie Chi Kit Cheung},
year={2023},
eprint={2305.05858},
archivePrefix={arXiv},
primaryClass={cs.CL}
}