B

Byt5 Large

由 google 开发
ByT5是谷歌T5的无分词器版本,直接处理UTF-8字节序列,支持多语言处理,对噪声文本具有更强的鲁棒性。
下载量 29.76k
发布时间 : 3/2/2022
模型介绍
内容详情
替代品

模型简介

ByT5是基于T5架构的无分词器预训练模型,直接处理原始UTF-8字节序列,无需分词器即可使用。该模型在mC4多语言数据集上预训练,特别适合处理噪声文本和多语言任务。

模型特点

无分词器设计
直接处理原始UTF-8字节序列,无需分词器,简化了预处理流程
多语言支持
支持100多种语言的处理,包括许多低资源语言
噪声鲁棒性
对噪声文本(如拼写错误、非标准格式)具有更强的处理能力
统一架构
使用标准Transformer架构,只需最小修改即可处理字节序列

模型能力

多语言文本生成
机器翻译
文本摘要
噪声文本处理

使用案例

自然语言处理
多语言机器翻译
在不同语言之间进行翻译,特别是处理非标准或噪声文本
在TweetQA等噪声文本数据集上表现优于分词模型
文本生成
生成连贯的多语言文本
社交媒体分析
社交媒体文本处理
处理包含拼写错误、缩写和非标准格式的社交媒体文本
对噪声文本具有更强的鲁棒性