S

Serengeti E250

由 UBC-NLP 开发
SERENGETI是一个覆盖517种非洲语言及方言的大规模多语言预训练模型,专注于填补非洲语言技术资源匮乏的空白。
下载量 42
发布时间 : 10/17/2023
模型介绍
内容详情
替代品

模型简介

该模型是多语言预训练语言模型(mPLMs),旨在支持非洲语言的多种自然语言理解任务,提升非洲社群通过本土语言获取信息的能力。

模型特点

广泛的语言覆盖
覆盖517种非洲语言及方言,是目前非洲NLP领域规模最大的多语言模型。
非洲中心主义设计
遵循非洲中心主义NLP原则,优先考虑非洲人群需求,支持语言使用者和研究者。
多任务性能优越
在八项自然语言理解任务的11个数据集中表现最优,平均F1分数达82.27。

模型能力

填充掩码
多语言文本理解
非洲语言支持

使用案例

语言技术
非洲语言信息获取
帮助非其他语言熟练者通过本土语言获取关键信息。
提升非洲社群的全球互联能力。
语言保存
为多种非洲语言提供保存契机,推动这些语言在多领域持续使用。
首次应用于NLP任务的非洲语言有望激发后续技术开发。
学术研究
语言学研究
支持人类学家和语言学家等研究者进行非洲语言研究。
提供丰富的语言数据和模型支持。