U

Umt5 Xxl

由 google 开发
UMT5是基于mC4多语种语料库预训练的多语言文本生成模型,支持107种语言,采用UniMax采样策略优化语言平衡
下载量 4,449
发布时间 : 7/2/2023
模型介绍
内容详情
替代品

模型简介

基于T5架构的多语言预训练模型,专注于跨语言文本生成任务,需针对下游任务微调后使用

模型特点

UniMax采样策略
通过设置语言重复上限实现更公平的语言分布,避免尾部语言过拟合
大规模多语言支持
覆盖107种语言,包含主流语种和低资源语言
升级版mC4语料库
基于29万亿字符的多语言预训练数据

模型能力

多语言文本生成
跨语言迁移学习
文本摘要
机器翻译

使用案例

自然语言处理
多语言机器翻译
通过微调实现低资源语言的翻译任务
跨语言文本摘要
支持多种语言的文本摘要生成