B

Byt5 Xxl

由 google 开发
ByT5是谷歌T5的无分词器版本,直接处理UTF-8字节序列,支持多语言文本处理,特别擅长处理噪声数据。
下载量 1,872
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

ByT5是基于字节级别的预训练模型,无需依赖分词器即可处理多种语言的原始文本,对噪声数据具有较强鲁棒性,适用于需要跨语言处理的任务。

模型特点

无分词器设计
直接处理原始UTF-8字节,无需复杂的分词流程,可立即处理任何语言的文本
多语言支持
原生支持85种语言处理,包括许多低资源语言
噪声鲁棒性
在噪声文本数据上表现优异,如拼写错误和非标准文本
统一处理框架
消除分词带来的技术债务,简化文本预处理流程

模型能力

多语言文本处理
噪声文本理解
序列到序列生成
跨语言迁移学习

使用案例

自然语言处理
机器翻译
在多语言间进行文本翻译,特别是非标准或噪声文本
在噪声文本上表现优于传统分词模型
文本摘要
生成多语言文本的摘要
问答系统
处理包含拼写错误或非标准表达的问答任务
在TweetQA任务上表现优异