U

Umt5 Xl

由 google 开发
基于mC4多语种语料库预训练的多语言文本生成模型,支持107种语言
下载量 1,049
发布时间 : 7/2/2023

模型简介

UMT5是谷歌研发的多语言T5模型变体,采用UniMax采样方法优化语言分布平衡,适用于跨语言文本生成和理解任务。需微调后使用。

模型特点

UniMax采样技术
通过限制语料重复次数实现更公平的语言分布,提升尾部语言表现
大规模多语言支持
覆盖107种语言,包括低资源语言如苗语、夏威夷语等
改进版mC4语料库
基于29万亿字符的多语言清洗数据训练

模型能力

多语言文本生成
跨语言迁移学习
文本理解
机器翻译基础模型

使用案例

自然语言处理
多语言文本摘要
支持百余种语言的文本摘要生成
低资源语言处理
对非洲、东南亚等低资源语言提供基础支持
教育科技
语言学习工具
可作为多语言学习应用的底层引擎
AIbase
智启未来,您的人工智能解决方案智库
简体中文