U

Umt5 Small

由 google 开发
基于mC4多语言语料库预训练的统一多语言T5模型,覆盖107种语言
下载量 17.35k
发布时间 : 7/2/2023
模型介绍
内容详情
替代品

模型简介

UMT5是谷歌研发的多语言文本生成模型,采用UniMax采样策略优化语言分布,适用于跨语言自然语言处理任务。需微调后使用。

模型特点

UniMax采样策略
通过限制语料重复次数优化语言分布,平衡头部/尾部语言覆盖
多语言支持
覆盖107种语言,包括低资源语言
大规模预训练
基于29万亿字符的mC4多语言语料库

模型能力

多语言文本生成
跨语言迁移学习
零样本学习(需微调)

使用案例

自然语言处理
机器翻译
通过微调实现跨语言文本转换
多语言问答系统
构建支持多种语言的智能问答应用
内容生成
多语言内容创作
生成不同语言的营销文案/新闻摘要